Nadviažem na predchádzajúce blogy a skúsim založiť sériu, ktorá možno neskôr prerastie do serióznejšieho data journalism projektu: porovnanie Slovenska s niekoľkými ďalšími krajinami pokiaľ ide o počet zverejnených datasetov. Nie úplne presná či všeobjímajúca metrika, ale predsa len čiastočne použiteľný čiastkový indikátor.

Porovnáme konkrétne Slovensko (SR), Česko (ČR), Rakúsko (AT), Taliansko (IT) a Veľkú Britániu (GB) čo do počtu zverejnených datasetov a ich licencií (k 29.4.2014):


SRČRATITGB
počet datasetov2051781229854018417
počet zdrojov (resources)5121573231242145163943
počet datasetov s otvorenou licenciou1 (0.5%)24 (13.5%)1227 (99.8%)8489 (99.4%)9207 (50.0%)
počet datasetov s nie otvorenou licenciou2041542519210
Pozorovania
  1. (nové) V IT zrejme prebehla akcia zameraná na licencie a počet otvorených datasetov vzrástol oproti novembru 2013 z 16.6% na 99.4%!
  2. (nové) V ČR mierne poklesol počet datasetov a zdrojov: zrejme prečisťujú, keďže sa zvýšil počet (a teda aj podiel) otvorených datasetov.
  3. (nové) V SR je "hladina vody ustálená": od novembra 2013 žiadne zmeny. Dúfajme, že aspoň toto pomôže.
  4. SR aj ČR prudko zaostávajú za AT, IT aj GB v počte datasetov s otvorenou licenciou. V SR to o.i. môže byť spôsobené nejasným právnym prostredím (viď Otvorené licencie na Slovensku? Zabudnite!), čomu už čoskoro bude dúfajme koniec (viď. SOIT: Creative Commons a Prešla novela AutZ).
  5. AT a IT v podiele datasetov s otvorenou licenciou suverénne vedú: otvorené sú takmer všetky datasety.
  6. SR aj ČR prudko zaostávajú za AT, IT aj GB čo do počtu datasetov aj zdrojov.
  7. SR zaostáva za ČR v počte zdrojov. To môže byť spôsobené napr. nerovnakou metodikou kategorizovania datasetov a zdrojov.
Možné vylepšenia tohto porovnania
  1. Trendy (vykazovať prírastky a úbytky) + grafy.
  2. Bolo by zaujímavé porovnať aj zastúpenie použitých formátov a API. Je tam však veľká variabilita a navyše aj niektoré CSV je lepšie ako iné CSV a pod. Toť téma na ďalšie skúmanie.
  3. Bolo by zaujímavé vyčísľovať aj počty aplikácií postavených nad dátami. Takéto údaje však zatiaľ ucelene vedené nie sú.
Zdroje a metodika

Zdrojmi údajov sú API jednotlivých data katalógov:

Počty položiek sú získané jednoduchými "list" a "search" dotazmi, bez filtrovania či vyhodnocovania.

Čo je a čo nie je "otvorená licencia" je na rozhodnutí kurátorov daných katalógov. Dôležité totiž je, či a ako vyplnili položku "isopen" k jednotlivým datasetom. Pre potreby tohto porovnania je "isopen=true" brané ako "otvorená licencia" a zbytok ako "nie otvorená licencia".

(nové) Aktuálne údaje vo forme CSV si môžete stiahnuť na adrese https://github.com/hanecak/data_data-catalog-stats/blob/master/data-catalog-stats-current.csv . Programátori či iný znalci sa tam doklikajú aj k historickým údajom. (smile)

Predchádzajúce vydania

  • No labels