Blog from June, 2015


V nadväznosti na ostatný blog post zo série "Porovnania s inými" (za máj 2014) dnes ponúkam po viac ako roku aktualizáciu porovnania Slovenska s niekoľkými ďalšími krajinami pokiaľ ide o počet zverejnených datasetov. Nie je to úplne presná či všeobjímajúca metrika, ale ako čiastkový indikátor poslúži (nie je dataset ako dataset, niektoré sa dajú použiť viac a na dôležitejšie veci, iné menej, ale to sa tiež ťažko meria - ale ak datasetov pribúda, zvyčajne je to dobre).

Porovnáme konkrétne Slovensko (SR), Česko (ČR), Rakúsko (AT), Taliansko (IT), Veľkú Britániu (GB) a Rumunsko (RO) čo do počtu zverejnených datasetov a ich licencií (k 2.6.2015):


SRČRATITGBRO
počet datasetov43518318161111024892251
počet zdrojov (resources)11931570640931240843581748
počet datasetov s otvorenou licenciou416 (95.6%)26 (14.2%)1111 (61.2%)11084 (99.8%)15438 (62.0%)244 (97.2%)
počet datasetov s nie otvorenou licenciou191577052694547
Pozorovania
  1. (nové) Rumunsko je aktuálne čisto v počte datasetov zhruba na úrovni SR pred rokom. Kladú tiež dôraz na otvorenú licenciu (97% datasetov uvádza licenciu OGL-ROU-1.0).
  2. V SR sa po dlhšom období keď bola "hladina vody ustálená" veci pohli a "hladina stúpa" o zhruba dvojnásobok. Veľký podiel má na tom aktivita Štatistického úradu, ktorý má aktuálne na konte 244 datasetov (viď http://data.gov.sk/dataset?organization=statisticky-urad-sr). V nastúpenom trende teda dúfam budeme pokračovať a k ŠÚ sa pridajú aj ďalšie organizácie.
    1. Vrámci upgradu data.gov.sk (zhruba leto 2014) prebehlo o.i. doplnenie informácií o licencii. Výsledkom je, že viac ako 95% datasetov v SR je dnes uvádza otvorenú licenciu (v drvivej väčšine CC-BY-SA).
  3. V ČR počet datasetov a zdrojov vzrástol len minimálne. Ale rozbehla sa akoby decentralizovaná aktivita a svoje katalógy spustili alebo spúšťajú napr. rôzne ministerstvá (viď napr. http://data.mfcr.cz/). Centrálny katalóg však zrejme nepreberá údaje z rezortných a teda celkový údaj v mojej štatistike tieto nové aktivity zatiaľ nezohľadňuje. (a pozor, údaje sú výnimočne k 22.5.2015, keďže potom mi prestalo fungovať API, viď 710f968)
  4. V Rakúsku naďalej stúpa počet datasetov. Zredukovali však počet zdrojov a citeľne poklesol aj počet datasetov s otvorenou licenciou (z 99.8% na 61.2%). Príčiny mi zatiaľ nie sú známe.
    1. Treba však podotknúť, že v Rakúsku otvorili dôležité a "drahé" datasety, viď napr. Open Geo Data - to sa neda? Tieto priestorové údaje sú veľmi dôležité a sú otvorené (CC-BY-AT 3.0).
  5. V Taliansku tiež stúpa počet datasetov. A stále pokračujú aj v tlaku na otvorené licencovanie, takže počet "non open" datasetov klesá. (a pozor, údaje sú výnimočne k 30.5.2015, keďže potom mi prestalo fungovať API, viď b866d3a)
  6. Obdobne aj vo Veľkej Británii počet datasetov stúpa, vo väčšine pod otvorenou licenciou. Takže aj tam sa percentuálne zvyšuje počet naozaj otvorených údajov.
  7. Oproti ostatnému porovnaniu, vznikla nová skupine "suverénov" s vysokým podielom otvorených datasetov: Slovensko a Rumunsko sa percentuálne veľmi priblížili Taliansku, Rakúsko vypadlo.
Možné vylepšenia tohto porovnania
  1. Trendy (vykazovať prírastky a úbytky) + grafy.
  2. Bolo by zaujímavé porovnať aj zastúpenie použitých formátov a API. Je tam však veľká variabilita a navyše aj niektoré CSV je lepšie ako iné CSV a pod. Toť téma na ďalšie skúmanie.
  3. Bolo by zaujímavé vyčísľovať aj počty aplikácií postavených nad dátami. Takéto údaje však zatiaľ ucelene vedené nie sú.
Zdroje a metodika

Zdrojmi údajov sú API jednotlivých data katalógov:

Počty položiek sú získané jednoduchými "list" a "search" dotazmi, bez filtrovania či vyhodnocovania.

Čo je a čo nie je "otvorená licencia" je na rozhodnutí kurátorov daných katalógov. Dôležité totiž je, či a ako vyplnili položku "isopen" k jednotlivým datasetom. Pre potreby tohto porovnania je "isopen=true" brané ako "otvorená licencia" a zbytok ako "nie otvorená licencia".

Aktuálne údaje vo forme CSV si môžete stiahnuť na adrese https://github.com/hanecak/data_data-catalog-stats/blob/master/data-catalog-stats-current.csv . Programátori či iný znalci sa tam doklikajú aj k historickým údajom. (smile)

Predchádzajúce vydania