Novšie vydanie
Nadviažem na predchádzajúce blogy a skúsim založiť sériu, ktorá možno neskôr prerastie do serióznejšieho data journalism projektu: porovnanie Slovenska s niekoľkými ďalšími krajinami pokiaľ ide o počet zverejnených datasetov. Nie úplne presná či všeobjímajúca metrika, ale predsa len čiastočne použiteľný čiastkový indikátor.
Porovnáme konkrétne Slovensko (SR), Česko (ČR), Rakúsko (AT), Taliansko (IT) a Veľkú Britániu (GB) čo do počtu zverejnených datasetov a ich licencií (k 29.4.2014):
SR | ČR | AT | IT | GB | |
---|---|---|---|---|---|
počet datasetov | 205 | 178 | 1229 | 8540 | 18417 |
počet zdrojov (resources) | 512 | 1573 | 23124 | 21451 | 63943 |
počet datasetov s otvorenou licenciou | 1 (0.5%) | 24 (13.5%) | 1227 (99.8%) | 8489 (99.4%) | 9207 (50.0%) |
počet datasetov s nie otvorenou licenciou | 204 | 154 | 2 | 51 | 9210 |
Pozorovania
- (nové) V IT zrejme prebehla akcia zameraná na licencie a počet otvorených datasetov vzrástol oproti novembru 2013 z 16.6% na 99.4%!
- (nové) V ČR mierne poklesol počet datasetov a zdrojov: zrejme prečisťujú, keďže sa zvýšil počet (a teda aj podiel) otvorených datasetov.
- (nové) V SR je "hladina vody ustálená": od novembra 2013 žiadne zmeny. Dúfajme, že aspoň toto pomôže.
- SR aj ČR prudko zaostávajú za AT, IT aj GB v počte datasetov s otvorenou licenciou. V SR to o.i. môže byť spôsobené nejasným právnym prostredím (viď Otvorené licencie na Slovensku? Zabudnite!), čomu už čoskoro bude dúfajme koniec (viď. SOIT: Creative Commons a Prešla novela AutZ).
- AT a IT v podiele datasetov s otvorenou licenciou suverénne vedú: otvorené sú takmer všetky datasety.
- SR aj ČR prudko zaostávajú za AT, IT aj GB čo do počtu datasetov aj zdrojov.
- SR zaostáva za ČR v počte zdrojov. To môže byť spôsobené napr. nerovnakou metodikou kategorizovania datasetov a zdrojov.
Možné vylepšenia tohto porovnania
- Trendy (vykazovať prírastky a úbytky) + grafy.
- Bolo by zaujímavé porovnať aj zastúpenie použitých formátov a API. Je tam však veľká variabilita a navyše aj niektoré CSV je lepšie ako iné CSV a pod. Toť téma na ďalšie skúmanie.
- Bolo by zaujímavé vyčísľovať aj počty aplikácií postavených nad dátami. Takéto údaje však zatiaľ ucelene vedené nie sú.
Zdroje a metodika
Zdrojmi údajov sú API jednotlivých data katalógov:
- http://data.gov.sk/sk/api/
- http://cz.ckan.net/api/
- http://data.gov.uk/api/
- http://www.data.gv.at/katalog/api
- http://www.opendatahub.it/api/
Počty položiek sú získané jednoduchými "list
" a "search
" dotazmi, bez filtrovania či vyhodnocovania.
Čo je a čo nie je "otvorená licencia" je na rozhodnutí kurátorov daných katalógov. Dôležité totiž je, či a ako vyplnili položku "isopen
" k jednotlivým datasetom. Pre potreby tohto porovnania je "isopen=true" brané ako "otvorená licencia" a zbytok ako "nie otvorená licencia".
(nové) Aktuálne údaje vo forme CSV si môžete stiahnuť na adrese https://github.com/hanecak/data_data-catalog-stats/blob/master/data-catalog-stats-current.csv . Programátori či iný znalci sa tam doklikajú aj k historickým údajom.
Predchádzajúce vydania