Novšie vydanie
V nadväznosti na ostatný blog post zo série "Porovnania s inými" (za máj 2014) dnes ponúkam po viac ako roku aktualizáciu porovnania Slovenska s niekoľkými ďalšími krajinami pokiaľ ide o počet zverejnených datasetov. Nie je to úplne presná či všeobjímajúca metrika, ale ako čiastkový indikátor poslúži (nie je dataset ako dataset, niektoré sa dajú použiť viac a na dôležitejšie veci, iné menej, ale to sa tiež ťažko meria - ale ak datasetov pribúda, zvyčajne je to dobre).
Porovnáme konkrétne Slovensko (SR), Česko (ČR), Rakúsko (AT), Taliansko (IT), Veľkú Britániu (GB) a Rumunsko (RO) čo do počtu zverejnených datasetov a ich licencií (k 2.6.2015):
SR | ČR | AT | IT | GB | RO | |
---|---|---|---|---|---|---|
počet datasetov | 435 | 183 | 1816 | 11110 | 24892 | 251 |
počet zdrojov (resources) | 1193 | 1570 | 6409 | 31240 | 84358 | 1748 |
počet datasetov s otvorenou licenciou | 416 (95.6%) | 26 (14.2%) | 1111 (61.2%) | 11084 (99.8%) | 15438 (62.0%) | 244 (97.2%) |
počet datasetov s nie otvorenou licenciou | 19 | 157 | 705 | 26 | 9454 | 7 |
Pozorovania
- (nové) Rumunsko je aktuálne čisto v počte datasetov zhruba na úrovni SR pred rokom. Kladú tiež dôraz na otvorenú licenciu (97% datasetov uvádza licenciu OGL-ROU-1.0).
- V SR sa po dlhšom období keď bola "hladina vody ustálená" veci pohli a "hladina stúpa" o zhruba dvojnásobok. Veľký podiel má na tom aktivita Štatistického úradu, ktorý má aktuálne na konte 244 datasetov (viď http://data.gov.sk/dataset?organization=statisticky-urad-sr). V nastúpenom trende teda dúfam budeme pokračovať a k ŠÚ sa pridajú aj ďalšie organizácie.
- Vrámci upgradu data.gov.sk (zhruba leto 2014) prebehlo o.i. doplnenie informácií o licencii. Výsledkom je, že viac ako 95% datasetov v SR je dnes uvádza otvorenú licenciu (v drvivej väčšine CC-BY-SA).
- V ČR počet datasetov a zdrojov vzrástol len minimálne. Ale rozbehla sa akoby decentralizovaná aktivita a svoje katalógy spustili alebo spúšťajú napr. rôzne ministerstvá (viď napr. http://data.mfcr.cz/). Centrálny katalóg však zrejme nepreberá údaje z rezortných a teda celkový údaj v mojej štatistike tieto nové aktivity zatiaľ nezohľadňuje. (a pozor, údaje sú výnimočne k 22.5.2015, keďže potom mi prestalo fungovať API, viď 710f968)
- V Rakúsku naďalej stúpa počet datasetov. Zredukovali však počet zdrojov a citeľne poklesol aj počet datasetov s otvorenou licenciou (z 99.8% na 61.2%). Príčiny mi zatiaľ nie sú známe.
- Treba však podotknúť, že v Rakúsku otvorili dôležité a "drahé" datasety, viď napr. Open Geo Data - to sa neda? Tieto priestorové údaje sú veľmi dôležité a sú otvorené (CC-BY-AT 3.0).
- V Taliansku tiež stúpa počet datasetov. A stále pokračujú aj v tlaku na otvorené licencovanie, takže počet "non open" datasetov klesá. (a pozor, údaje sú výnimočne k 30.5.2015, keďže potom mi prestalo fungovať API, viď b866d3a)
- Obdobne aj vo Veľkej Británii počet datasetov stúpa, vo väčšine pod otvorenou licenciou. Takže aj tam sa percentuálne zvyšuje počet naozaj otvorených údajov.
- Oproti ostatnému porovnaniu, vznikla nová skupine "suverénov" s vysokým podielom otvorených datasetov: Slovensko a Rumunsko sa percentuálne veľmi priblížili Taliansku, Rakúsko vypadlo.
Možné vylepšenia tohto porovnania
- Trendy (vykazovať prírastky a úbytky) + grafy.
- Bolo by zaujímavé porovnať aj zastúpenie použitých formátov a API. Je tam však veľká variabilita a navyše aj niektoré CSV je lepšie ako iné CSV a pod. Toť téma na ďalšie skúmanie.
- Bolo by zaujímavé vyčísľovať aj počty aplikácií postavených nad dátami. Takéto údaje však zatiaľ ucelene vedené nie sú.
Zdroje a metodika
Zdrojmi údajov sú API jednotlivých data katalógov:
- http://data.gov.sk/sk/api/
- http://cz.ckan.net/api/
- http://data.gov.uk/api/
- http://www.data.gv.at/katalog/api
- http://www.opendatahub.it/api/
- http://data.gov.ro/api/
Počty položiek sú získané jednoduchými "list
" a "search
" dotazmi, bez filtrovania či vyhodnocovania.
Čo je a čo nie je "otvorená licencia" je na rozhodnutí kurátorov daných katalógov. Dôležité totiž je, či a ako vyplnili položku "isopen
" k jednotlivým datasetom. Pre potreby tohto porovnania je "isopen=true" brané ako "otvorená licencia" a zbytok ako "nie otvorená licencia".
Aktuálne údaje vo forme CSV si môžete stiahnuť na adrese https://github.com/hanecak/data_data-catalog-stats/blob/master/data-catalog-stats-current.csv . Programátori či iný znalci sa tam doklikajú aj k historickým údajom.
Predchádzajúce vydania
1 Comment
Hanečák Peter AUTHOR
Od roku 2015 funguje aj projekt http://opendatamonitor.eu/ kde obdobný monitoring a reporting robia omnoho komplexnejšie, napr. okrem otvorenosti licencie kontrolujú aj strojovú spracovateľnosť a funkčnosť liniek na údaje.