Blog from December, 2014

Pokračujem teda v sérii občasníkov, ktorá možno neskôr prerastie do serióznejšieho data journalism projektu: porovnanie Slovenska s niekoľkými ďalšími krajinami pokiaľ ide o počet zverejnených datasetov. Nie úplne presná či všeobjímajúca metrika, ale predsa len čiastočne použiteľný čiastkový indikátor.

Porovnáme konkrétne Slovensko (SR), Česko (ČR), Rakúsko (AT), Taliansko (IT), Veľkú Britániu (GB) a oproti ostatnému porovnaniu pribudli aj Nemecko (DE) Írsko (IE) a Maďarsko (HU) a Rusko (RU). Porovnávame čo do počtu zverejnených datasetov a ich licencií k 18.12.2014:

 SRČRATITGBDEIEHURU
počet datasetov220178166090332015610441424475860
počet zdrojov (resources)561157359182321172307316549998527359
počet datasetov s otvorenou licenciou1 (0.45%) (warning)25 (14.04%)1509 (90.9%)8986 (99.47%)11722 (58.16%)7913 (27.12%)115 (75.79%)4 (8.51%)497 (8.48%)
počet datasetov s nie otvorenou licenciou2191531514784342528309435363
Pozorovania
  1. V ČR to čisto z pohľadu dátového katalógu vyzerá na stagnáciu. Aj keď teda viem, že približne 30 datasetov z ČR pribudlo tu: http://data.comsode.eu/dataset?tags=cz .
  2. V SR nastalo v posledných mesiacoch mierne oživenie a pribúdajú datasety (15 nových datasetov od mája 2014). Predpokladám, že sú to prvé lastovičky projektu eDemokracia a že sa môžeme tešiť na omnoho viac. Činní sú najmä na MF SR a v NASES-e.
  3. (warning) V SR zároveň došlo k zmene počtu reportovaných otvorených datasetov. Aktuálny údaj podľa samotného katalógu je 202. Avšak datasety označené licenciou CC-BY-SA (aktuálne 201) sú podľa mojich informácií iba chybou, ktorá sa stala pri migrácii a upgrade katalógu behom leta. A teda pre potreby tohto porovnania budem uvažovať, že pre dané datasety naďalej platí "nie je uvedená žiadna licencia" tak, ako bolo uvádzané pred migráciou. Za legitímne otvorené teda považujem len datasety s licenciou GFDL (aktuálne jeden, aj keď ten vyzerá byť výsledkom bezpečnostného incidentu).
  4. V UK a Taliansku pokračujú v pridávaní veľkého množstva nových datasetov a zároveň sa zvyšuje podiel tých s otvorenou licenciou.
  5. V Rakúsku pridávajú nové datasety,  poklesol však podiel tých s otvorenou licenciou (zrejme pribudli datasety bez uvedenej licencie, čo veľmi neteší ale stále lepšie ako nič).
  6. SR, Maďarsko, Rusko ale aj ČR prudko zaostávajú za Rakúskom, Talianskom, Nemeckom aj UK v počte datasetov s otvorenou licenciou. V SR je to spôsobené stále nejasným právnym prostredím: otvorené licencie už v SR síce platia (viď. SOIT: Creative Commons a Prešla novela AutZ) ale licencie zatiaľ nie sú uplatňované a teda potencionálny používateľ otvorených údajov sa musí spoľahnúť len na výklad zákonov (ktorý je pracný, drahý a v nakoniec aj tak nechráni pred prípadnými žalobami).
  7. Rakúsko a Taliansko v podiele datasetov s otvorenou licenciou naďalej suverénne vedú: otvorené sú takmer všetky datasety. Írsko započalo publikovanie v lete 2014 a latku držia tiež vysoko (zhruba tri štvrtiny datasetov sú naozaj otvorené).
  8. SR, ČR a Maďarsko prudko zaostávajú za Rakúskom, Talianskom aj UK čo do počtu datasetov aj zdrojov.
Možné vylepšenia tohto porovnania
  1. Trendy (vykazovať prírastky a úbytky) + grafy.
  2. Bolo by zaujímavé porovnať aj zastúpenie použitých formátov a API. Je tam však veľká variabilita a navyše aj niektoré CSV je lepšie ako iné CSV a pod. Toť téma na ďalšie skúmanie.
  3. Bolo by zaujímavé vyčísľovať aj počty aplikácií postavených nad dátami. Takéto údaje však zatiaľ ucelene vedené nie sú.
Zdroje a metodika

Zdrojmi údajov sú API jednotlivých data katalógov:

Počty položiek sú získané jednoduchými "list" a "search" dotazmi, bez filtrovania či vyhodnocovania pomocou skriptu: https://github.com/hanecak/data-catalog-stats .

Čo je a čo nie je "otvorená licencia" je na rozhodnutí kurátorov daných katalógov. Dôležité totiž je, či a ako vyplnili položku "isopen" k jednotlivým datasetom. Pre potreby tohto porovnania je "isopen=true" brané ako "otvorená licencia" a zbytok ako "nie otvorená licencia".

Aktuálne údaje vo forme CSV si môžete stiahnuť na adrese https://github.com/hanecak/data_data-catalog-stats/blob/master/data-catalog-stats-current.csv . Programátori či iný znalci sa tam doklikajú aj k historickým údajom.

Predchádzajúce vydania

 

text: