V nadväznosti na ostatný blog post zo série "Porovnania s inými" (za jún 2015) dnes ponúkam po dvoch rokoch aktualizáciu porovnania Slovenska s niekoľkými ďalšími krajinami pokiaľ ide o počet zverejnených datasetov. Počty datasetov nie je úplne presná či všeobjímajúca metrika, ale ako čiastkový indikátor poslúži (nie je dataset ako dataset, niektoré sa dajú použiť viac a na dôležitejšie veci, iné menej, ale to sa tiež ťažko meria - ale ak datasetov pribúda, zvyčajne je to dobre). Zaujímavý je teda najmä vývoj v čase a tak v tomto porovnaní pribudol graf.
Porovnám konkrétne Slovensko (SR), Rakúsko (AT), Bulharsko (BG), Maďarsko (HU) a Rumunsko (RO) čo do počtu zverejnených datasetov a ich licencií (k 15.6.2017):
SR | AT | BG | HU | RO | |
---|---|---|---|---|---|
počet datasetov | 1136 | 2399 | 2193 | 52 | 987 |
počet zdrojov (resources) | 5320 | 9533 | 5772 | 108 | 20218 |
počet datasetov s otvorenou licenciou | 1017 (89.5%) | 1957 (81.6%) | 1882 (85.8%) | 7 (13.5%) | 850 (86.1%) |
počet datasetov s nie otvorenou licenciou | 119 | 442 | 311 | 45 | 137 |
"Živá" verzia grafu (s priebežne aktualizovanými údajmi) je k dispozícii na adrese https://opendatask.gitlab.io/viz-data_catalog_stats-dataset_count-sk_comparison/ .
Pozorovania
- (nové) Bulharsko spustilo svoj katalóg s prvým datasetom v máji 2015 (viď Bulgarian government publishes first open datasets). Začiatky boli pomalšie, o rok neskôr však zvýšili tempo pridávania datasetov a udržujú ho na vyššej úrovni než SR.
- (nové) Maďarsko naďalej nemá oficiálny dátový portál, a tak monitorujem aspoň ten, ktorý spustili dobrovoľníci a neziskové organizácie. Keďže ho prevádzkuje komunita, obsahuje informácie nie len o vládnych, ale aj komunitných zdrojoch údajov.
- Rumunsko a SR udržiavajú zhruba podobnú úroveň: v oboch portáloch pribúdajú datasety priebežne, zhruba rovnakým tempom, v SR nastal väčší skok smerom hore zhruba v novembri 2015, v Rumunsku v septembri 2016.
- V SR "hladina vody stúpa" naďalej, veľký podiel má na tom má stále aktivita Štatistického úradu, ktorý má aktuálne na konte 606 datasetov (viď https://data.gov.sk/dataset?organization=f4787c6f-9fa3-406c-b8d5-d374f1e1f2d3).
- V Rakúsku taktiež naďalej stúpa počet datasetov a drží sa na prvej priečke z porovnávaných (aj napriek nejakému upratovaniu vo februári, kedy ubudlo zhruba 500 datasetov).
- Počty datasetov s otvorenou licenciou sa vo väčšine prípadov držia vcelku vysoko (medzi 80 a 90%), čo je dôležité kvôli ich reálnemu použitiu ("Whoever wants to use existing data needs to know whether they have the right to do so", viď The state of open licensing in 2017).
- Oproti ostatnému porovnaniu vypadli údaje za ČR, Taliansko a UK, ktorých zber mi prestal fungovať (či už kvôli zmene technológie portálu alebo kvôli chybám v SSL certifikátoch).
- V ČR zhruba v čase písania ostatného porovnania (jún 2015) spustili novú verziu katalógu otvorených údajov z ktorej zatiaľ údaje o počtoch cez API zbierať neviem. Katalóg eviduje rádovo 130 tisíc datasetov, drvivú väčšinu z nich publikuje Český úřad zeměměřický a katastrální.
Možné vylepšenia tohto porovnania
- Bolo by zaujímavé porovnať aj zastúpenie použitých formátov a API. Je tam však veľká variabilita a navyše aj niektoré CSV je lepšie ako iné CSV a pod. Toť téma na ďalšie skúmanie.
- Bolo by zaujímavé vyčísľovať aj počty aplikácií postavených nad dátami. Takéto údaje však zatiaľ ucelene vedené nie sú.
Zdroje a metodika
Zdrojmi údajov sú API jednotlivých data katalógov:
- http://data.gov.sk/sk/api/
- http://www.data.gv.at/katalog/api
- http://opendata.government.bg/api/
- http://opendata.hu/api/
- http://data.gov.ro/api/
Počty položiek sú získané jednoduchými "list
" a "search
" dotazmi, bez filtrovania či vyhodnocovania.
Čo je a čo nie je "otvorená licencia" je na rozhodnutí kurátorov daných katalógov. Dôležité totiž je, či a ako vyplnili položku "isopen
" k jednotlivým datasetom. Pre potreby tohto porovnania je "isopen=true" brané ako "otvorená licencia" a zbytok ako "nie otvorená licencia".
Aktuálne údaje vo forme CSV si môžete stiahnuť na adrese https://gitlab.com/opendatask/data-catalog-stats . Kód harvestera údajov je na adrese https://gitlab.com/opendatask/harvester-data-catalog-stats a kód vizualizácie na https://gitlab.com/opendatask/viz-data_catalog_stats-dataset_count-sk_comparison . Návrhy či pull-requesty s vylepšeniami sú vítané.
Predchádzajúce vydania