Blog from November, 2013

Nadviažem na predchádzajúci blog a skúsim založiť sériu, ktorá možno neskôr prerastie do serióznejšieho data journalism projektu: porovnanie Slovenska s niekoľkými ďalšími krajinami pokiaľ ide o počet zverejnených datasetov.

Porovnáme konkrétne Slovensko (SR), Česko (ČR), Rakúsko (AT), Taliansko (IT) a Veľkú Britániu (GB) čo do počtu zverejnených datasetov a ich licencií (k 5.9.2013):

 SRČRATITGB
počet datasetov2051951043664416662
počet zdrojov (resources)51216891116487073113544
počet datasetov s otvorenou licenciou1 (0.5%)22 (11.3%)1041 (99.8%)1102 (16.6%)8723 (52.4%)
počet datasetov s nie otvorenou licenciou204173255427939
Pozorovania
  1. SR aj ČR prudko zaostávajú za AT, IT aj GB v počte datasetov s otvorenou licenciou. V SR to o.i. môže byť spôsobené nejasným právnym prostredím (viď Otvorené licencie na Slovensku? Zabudnite!), čomu už čoskoro bude dúfajme koniec (viď. SOIT: Creative Commons a Prešla novela AutZ).
  2. AT v počte datasetov s otvorenou licencou suverénne vedie: otvorené sú skoro všetky datasety.
  3. SR aj ČR prudko zaostávajú za AT, IT aj GB čo do počtu datasetov aj zdrojov.
  4. SR zaostáva za ČR v počte zdrojov. To môže byť spôsobené napr. nerovnakou metodikou kategorizovania datasetov a zdrojov.
Možné vylepšenia porovnania
  1. Trendy (vykazovať prírastky a úbytky) + grafy.
  2. Bolo by zaujímavé porovnať aj zastúpenie použitých formátov a API. Je tam však veľká variabilita a navyše aj niektoré CSV je lepšie ako iné CSV a pod. Toť téma na ďalšie skúmanie.
  3. Bolo by zaujímavé vyčísľovať aj počty aplikácií postavených nad dátami. Takéto údaje však zatiaľ ucelene vedené nie sú.
Zdroje a metodika

Zdrojmi údajov sú API jednotlivých data katalógov:

Počty položiek sú získané jednoduchými "list" a "search" dotazmi, bez filtrovania či vyhodnocovania.

Čo je a čo nie je "otvorená licencia" je na rozhodnutí kurátorov daných katalógov. Dôležité totiž je, či a ako vyplnili položku "isopen" k jednotlivým datasetom. Pre potreby tohto porovnania je "isopen=true" brané ako "otvorená licencia" a zbytok ako "nie otvorená licencia".

Predchádzajúce vydania