Porovnania s inymi (maj 2014)

Novšie vydanie

Porovnania s inymi (jun 2015)

Nadviažem na predchádzajúce blogy a skúsim založiť sériu, ktorá možno neskôr prerastie do serióznejšieho data journalism projektu: porovnanie Slovenska s niekoľkými ďalšími krajinami pokiaľ ide o počet zverejnených datasetov. Nie úplne presná či všeobjímajúca metrika, ale predsa len čiastočne použiteľný čiastkový indikátor.

Porovnáme konkrétne Slovensko (SR), Česko (ČR), Rakúsko (AT), Taliansko (IT) a Veľkú Britániu (GB) čo do počtu zverejnených datasetov a ich licencií (k 29.4.2014):

	SR	ČR	AT	IT	GB
počet datasetov	205	178	1229	8540	18417
počet zdrojov (resources)	512	1573	23124	21451	63943
počet datasetov s otvorenou licenciou	1 (0.5%)	24 (13.5%)	1227 (99.8%)	8489 (99.4%)	9207 (50.0%)
počet datasetov s nie otvorenou licenciou	204	154	2	51	9210

Pozorovania

^(nové) V IT zrejme prebehla akcia zameraná na licencie a počet otvorených datasetov vzrástol oproti novembru 2013 z 16.6% na 99.4%!
^(nové) V ČR mierne poklesol počet datasetov a zdrojov: zrejme prečisťujú, keďže sa zvýšil počet (a teda aj podiel) otvorených datasetov.
^(nové) V SR je "hladina vody ustálená": od novembra 2013 žiadne zmeny. Dúfajme, že aspoň toto pomôže.
SR aj ČR prudko zaostávajú za AT, IT aj GB v počte datasetov s otvorenou licenciou. V SR to o.i. môže byť spôsobené nejasným právnym prostredím (viď Otvorené licencie na Slovensku? Zabudnite!), čomu už čoskoro bude dúfajme koniec (viď. SOIT: Creative Commons a Prešla novela AutZ).
AT a IT v podiele datasetov s otvorenou licenciou suverénne vedú: otvorené sú takmer všetky datasety.
SR aj ČR prudko zaostávajú za AT, IT aj GB čo do počtu datasetov aj zdrojov.
SR zaostáva za ČR v počte zdrojov. To môže byť spôsobené napr. nerovnakou metodikou kategorizovania datasetov a zdrojov.

Možné vylepšenia tohto porovnania

Trendy (vykazovať prírastky a úbytky) + grafy.
Bolo by zaujímavé porovnať aj zastúpenie použitých formátov a API. Je tam však veľká variabilita a navyše aj niektoré CSV je lepšie ako iné CSV a pod. Toť téma na ďalšie skúmanie.
Bolo by zaujímavé vyčísľovať aj počty aplikácií postavených nad dátami. Takéto údaje však zatiaľ ucelene vedené nie sú.

Zdroje a metodika

Zdrojmi údajov sú API jednotlivých data katalógov:

Počty položiek sú získané jednoduchými "list" a "search" dotazmi, bez filtrovania či vyhodnocovania.

Čo je a čo nie je "otvorená licencia" je na rozhodnutí kurátorov daných katalógov. Dôležité totiž je, či a ako vyplnili položku "isopen" k jednotlivým datasetom. Pre potreby tohto porovnania je "isopen=true" brané ako "otvorená licencia" a zbytok ako "nie otvorená licencia".

^(nové) Aktuálne údaje vo forme CSV si môžete stiahnuť na adrese https://github.com/hanecak/data_data-catalog-stats/blob/master/data-catalog-stats-current.csv . Programátori či iný znalci sa tam doklikajú aj k historickým údajom.

Predchádzajúce vydania

Space shortcuts

Blog

Pozorovania

Možné vylepšenia tohto porovnania

Zdroje a metodika