Novšie vydanie
Nadviažem na predchádzajúci blog a skúsim založiť sériu, ktorá možno neskôr prerastie do serióznejšieho data journalism projektu: porovnanie Slovenska s niekoľkými ďalšími krajinami pokiaľ ide o počet zverejnených datasetov.
Porovnáme konkrétne Slovensko (SR), Česko (ČR), Rakúsko (AT), Taliansko (IT) a Veľkú Britániu (GB) čo do počtu zverejnených datasetov a ich licencií (k 5.9.2013):
SR | ČR | AT | IT | GB | |
---|---|---|---|---|---|
počet datasetov | 205 | 195 | 1043 | 6644 | 16662 |
počet zdrojov (resources) | 512 | 1689 | 11164 | 87073 | 113544 |
počet datasetov s otvorenou licenciou | 1 (0.5%) | 22 (11.3%) | 1041 (99.8%) | 1102 (16.6%) | 8723 (52.4%) |
počet datasetov s nie otvorenou licenciou | 204 | 173 | 2 | 5542 | 7939 |
Pozorovania
- SR aj ČR prudko zaostávajú za AT, IT aj GB v počte datasetov s otvorenou licenciou. V SR to o.i. môže byť spôsobené nejasným právnym prostredím (viď Otvorené licencie na Slovensku? Zabudnite!), čomu už čoskoro bude dúfajme koniec (viď. SOIT: Creative Commons a Prešla novela AutZ).
- AT v počte datasetov s otvorenou licencou suverénne vedie: otvorené sú skoro všetky datasety.
- SR aj ČR prudko zaostávajú za AT, IT aj GB čo do počtu datasetov aj zdrojov.
- SR zaostáva za ČR v počte zdrojov. To môže byť spôsobené napr. nerovnakou metodikou kategorizovania datasetov a zdrojov.
Možné vylepšenia porovnania
- Trendy (vykazovať prírastky a úbytky) + grafy.
- Bolo by zaujímavé porovnať aj zastúpenie použitých formátov a API. Je tam však veľká variabilita a navyše aj niektoré CSV je lepšie ako iné CSV a pod. Toť téma na ďalšie skúmanie.
- Bolo by zaujímavé vyčísľovať aj počty aplikácií postavených nad dátami. Takéto údaje však zatiaľ ucelene vedené nie sú.
Zdroje a metodika
Zdrojmi údajov sú API jednotlivých data katalógov:
- http://data.gov.sk/sk/api/
- http://cz.ckan.net/api/
- http://data.gov.uk/api/
- http://www.data.gv.at/katalog/api
http://data.gov.au/api/- nateraz vynechané, keďže mi akosi nefunguje dopyt na"search/resource"
- http://www.opendatahub.it/api/
Počty položiek sú získané jednoduchými "list
" a "search
" dotazmi, bez filtrovania či vyhodnocovania.
Čo je a čo nie je "otvorená licencia" je na rozhodnutí kurátorov daných katalógov. Dôležité totiž je, či a ako vyplnili položku "isopen
" k jednotlivým datasetom. Pre potreby tohto porovnania je "isopen=true" brané ako "otvorená licencia" a zbytok ako "nie otvorená licencia".
Crosspost
Predchádzajúce vydania