Trochu viac zoširoka
Ako súvisia otvorené údaje s bojom proti korupcii? Pomôžem si citátom z "Tackling Corruption Together: How Open Data Can Help Fight Corruption":
Ak sú informácie o činnosti verejnej správy limitované, predstavuje to príležitosti pre skorumpovaných na zneužívanie verejných zdrojov pre obohacovanie seba samých. Na vybudovanie transparentnosti, zodpovednosti a dôvery vo vládu, medzinárodná zmena smerom k otvorenosti je nevyhnutná.
Publikovanie otvorených údajov predstavuje proaktívne zverejňovanie údajov, kedy verejná správa nečaká na "žiadosť o informácie", ale priebežne, bez žiadostí a bez zbytočného zdržania zverejňuje všetky údaje, ktoré vrámci svojej činnosti zozbierala (výnimkou sú utajované okolnosti a vo väčšine prípadov aj osobné údaje), pre všetkých, zadarmo a na akýkoľvek účel (samozrejme, legálny). Takéto zverejnenie dáva príležitosť komukoľvek byť "kontrolórom štátu". Vrámci hesla "slnko je najlepší dezinfekčný prostriedok" si hocikto môže "posvietiť" na hocičo o čom sú zverejnené informácie. (Je to tiež príležitosť byť efektívnym partnerom/spolupracovníkom úradníkov pre tých, ktorí chcú spoločnosti pomôcť aj inak než len zaplatením daní.)
V rozvoji publikovania a používania otvorených údajov je komunita v SR našťastie zajedno s oficiálnymi politikami štátu (myslím, že najmä vďaka tzv. Otvorenému vládnutiu / OGP a občianskej participácii). A za uplynulé roky má Slovensko aj výsledky:
- štandardy ISVS obsahujú aj všetky potrebné náležitosti pre otvorené údaje
- máme centrálnu infraštruktúru na ktorej vrchole je https://data.gov.sk/
- máme aj hackatony (napr. http://danubehack.eu/)
- máme portály, ktoré už dnes zverejňujú mnoho dôležitých a podrobných údajov (Centrálny register zmlúv, Register účtovných závierok, ITMS2014+, atď.)
- podľa hodnotenia European Data Portal (EUDP) sme za rok 2017 v elitnej skupine "trend-setters", dobré výsledky máme aj v iných rebríčkoch (viď Rebríčky, hodnotenia, porovnania)
- rozvojové aktivity naďalej pokračujú (viď napr. Akčný plán Iniciatívy pre otvorené vládnutie 2017-2019 - OGP 2017-2019)
Čo ďalej? Z hodnotenia Európskeho dátového portálu (EUDP) vyplýva, že takmer všetko už máme veľmi dobré, len samotné údaje akosi chýbajú. A na údaje treba najmä:
- ľudí: dátových kurátorov a ďalší IT aj nie-IT personál vo verejnej správe ale aj mimo nej, ktorí by vedeli ich otvoriť/zverejniť
- financovanie: ktoré pokryje tých ľudí a (poväčšine drobné či malé) úpravy existujúcich alebo novo vznikajúcich informačných systémov
Otváranie údajov je podstatnou časťou mnohých strategických dokumentov a úloh. Tu problém nie je.
Problémom nie sú ani peniaze: Na zlepšovanie štátneho IT išli (OPIS, ...) a ešte pôjdu (OPII, EVS, ...) miliardy, pričom na otvorené údaje treba len nepatrný zlomok z toho.
Ostávajú teda ľudia, tých je aktuálne málo. Ľudia, ktorí sa otváraniu údajov najmä chcú venovať. (Prípadné chýbajúce know-how nie je problém, pomôžeme doplniť, nie je to ťažké, keďže ďalším princípom otvorených údajov sú jednoduchosť a otvorené štandardy.)
Konkrétne príklady
Dva konkrétne príklady, ako by tu a dnes zlepšenie publikovania otvorených údajov mohlo výrazne pomôcť dokončiť prácu Jána Kuciaka:
PPA a Kataster
Citujem príspevok Adama Valčeka (tiež investigatívneho novinára):
V týchto dňoch prichádzame na to, prečo je verejná kontrola poľnohospodárskych dotácií taká náročná. Predstavte si, že chcete vedieť, komu patrí pole za vašim domom. Čo urobíte? Kliknite na katastrálnu mapu a za pár sekúnd to viete.
Ale čo urobíte, keď chcete vedieť, kto dostáva dotácie na toto pole? Ľahké a rýchle to rozhodne nie je. Je to svet, v ktorom sa ktastrálne územie volá „názov štvorca“, kde sa parcela volá „kultúrny diel“ a najmä, kde názov štvorcov nekopíruje názvoslovie obcií a miest na Slovensku.
Pole v Dvoriankach tak nehľadáte v Dvoriankach, ale v rámci „štvorca“, ktorý má úplne iný názov. Jednoduché vyhľadávanie neexistuje. Musíte si otvoriť pôdnu mapu, prepnúť na satelitné zobrazenie a porovnávať podľa terénu, kde cca. sa nachádza územie, ktoré preverujete. Keď to už máte a netrvá to krátko, musíte zistiť, súčasťou akého „kultúrneho dielu“ je hľadaná parcela.
V mape zistíte číslo tohto kultúrneho dielu a to zadáte do vyhľadávača na webe Poľnohospodárskej platobnej agentúry, aby ste sa konečne dozvedeli, kto a koľko dotácií zinkasoval.
Ak chcete hľadať širšie vzťahy, napríklad kto s kým susedí, musíte parcelu po parcele, štvorec po štvorci, kultúrny dielik po dieliku preverovať. Keď chcete zistiť, ktorá firma má koľko parciel — „kultúrnych dielov“, vlastne to nezistíte (také vyhľadávanie som zatiaľ nenašiel).
#opendata #allforjan
Toť silný argument pre riadne a rýchle otvorenie konkrétnych údajov z Poľnohospodárskej platobnej agentúry (PPA) a Katastra. (A nie, vylepšenie iba existujúcich webových portálov a ich vyhľadávacích funkcií nestačí. Jeden z dôvodov je načrtnutý v nasledujúcom odstavci.)
Žiadosti o informácie môžu byť aj nebezpečné
V článku "Freedom of Information Law: Reporter’s Best Friend or Killer?" rozoberajú autori (Vlad Lavrov a Eva Kubaniova) možnosť, že sa o aktivitách a rozpracovanom článku Jána Kuciaka dozvedel objednávateľ vraha od verejných funkcionárov, ktorí spracúvali jeho žiadosti o informácie.
V tomto kontexte je proaktívne publikovanie otvorených údajov kľúčové: údaje ktoré sú voľne dostupné na webe netreba písomne žiadať a zároveň je pre štát výrazne ťažšie (a na základe princípov Open Data aj zbytočné) podrobne sledovať, kto čo sťahuje. Dá sa teda povedať, že čím viac údajov štát zverejní ako otvorené údaje, tým menšie riziko predstavuje práca s údajmi pre investigatívnych novinárov (alebo aj v menej kritickom kontexte: tým menšie riziko napr. pre start-upy, že ich nový biznis nápad bude predčasne prezradený).
Poznámky povedľa:
- Obdobné platí, ak by Ján alebo iní pracovali s údajmi síce bez žiadosti, ale cez/na štátom prevádzkovaných portáloch. Zo záznamov v týchto portáloch sa totiž zvyčajne dá tiež veľmi dobre zrekonštruovať, kto čo zisťoval.
- Proaktívne zverejňovanie otvorených údajov má výhody aj pre samotných úradníkov: šetrí im prácu pri vybavovaní "infožiadostí" a zároveň je napríklad výrazne ťažšie ich podozrievať, že vynášajú citlivé informácie o používateľoch údajov.
Pokým pre projekt MapaZlocinu.sk vybavujeme podrobnejšie údaje, využili kolegovia skúsenosti a vyrobili aj GEO report o podnetoch prijatých od občanov bratislavskej mestskej časti Nové Mesto vrámci projektu Participatívneho rozpočtu:
Elektronický kontraktačný systém poskytuje na adrese https://portal.eks.sk/Reporty/OtvoreneUdaje dva reporty v podobe otvorených údajov:
Je dobré, že stránka aj údaje majú čitateľné a aj zrejme stabilné URL:
- https://portal.eks.sk/Reporty/OtvoreneUdaje
- https://portal.eks.sk/reporty/otvoreneudaje/generujzakazkycsv
- https://portal.eks.sk/reporty/otvoreneudaje/generujzmluvycsv
Má to ale aj nedostatky:
Pre prístup k údajom sa treba registrovať. To je podľa mňa v prípade CSV/ZIP súborov zbytočné, keďže prístup k otvoreným údajom býva zvyčajne anonymný a autentifikácia sa používa iba pri prístupoch k tzv. API (viď referencie), keďže tie zaťažujú servery výrazne viac než sťahovanie malých či stredne veľkých súborov. Nuž a čože je dnes 35 MB.
Referencie: Opieram sa napr. o:
- základnú "open definition" (http://opendefinition.org/) "Open data and content can be freely used, modified, and shared by anyone for any purpose"
- US Open Data API basics: "Easy access to all this data and resources is great, but sometimes we need to control access to APIs"
Ďalej, chýba aj veľmi dôležitá položka: licencia k údajom. Zo 65 stránkových podmienok použitia veľmi múdry nie som, takže sa opieram najmä o §52 vo Výnose 55/2014, ktorý si ja ako laik/neprávnik vysvetľujem ako ekvivalent licencie CC0. Preto som si aj dovolil k tejto stránke priložiť kópie reportov.
A na koniec, údaje nie sú registrované na data.gov.sk, takže sú ťažšie nájditeľné. (plus to nie je v súlade s už spomenutým Výnosom, konkrétne §53, ods. f)
Celkovo teda tento počin vnímam pozitívne a dúfam, že napr. s nástupom projektu eDemokracia sa reporty čoskoro objavia aj na data.gov.sk, kde budú prístupné bez nutnosti registrácie a s riadne uvedenou licenciou.
Pokračujem teda v sérii občasníkov, ktorá možno neskôr prerastie do serióznejšieho data journalism projektu: porovnanie Slovenska s niekoľkými ďalšími krajinami pokiaľ ide o počet zverejnených datasetov. Nie úplne presná či všeobjímajúca metrika, ale predsa len čiastočne použiteľný čiastkový indikátor.
Porovnáme konkrétne Slovensko (SR), Česko (ČR), Rakúsko (AT), Taliansko (IT), Veľkú Britániu (GB) a oproti ostatnému porovnaniu pribudli aj Nemecko (DE) Írsko (IE) a Maďarsko (HU) a Rusko (RU). Porovnávame čo do počtu zverejnených datasetov a ich licencií k 18.12.2014:
SR | ČR | AT | IT | GB | DE | IE | HU | RU | |
---|---|---|---|---|---|---|---|---|---|
počet datasetov | 220 | 178 | 1660 | 9033 | 20156 | 10441 | 424 | 47 | 5860 |
počet zdrojov (resources) | 561 | 1573 | 5918 | 23211 | 72307 | 31654 | 999 | 85 | 27359 |
počet datasetov s otvorenou licenciou | 1 (0.45%) | 25 (14.04%) | 1509 (90.9%) | 8986 (99.47%) | 11722 (58.16%) | 7913 (27.12%) | 115 (75.79%) | 4 (8.51%) | 497 (8.48%) |
počet datasetov s nie otvorenou licenciou | 219 | 153 | 151 | 47 | 8434 | 2528 | 309 | 43 | 5363 |
Pozorovania
- V ČR to čisto z pohľadu dátového katalógu vyzerá na stagnáciu. Aj keď teda viem, že približne 30 datasetov z ČR pribudlo tu: http://data.comsode.eu/dataset?tags=cz .
- V SR nastalo v posledných mesiacoch mierne oživenie a pribúdajú datasety (15 nových datasetov od mája 2014). Predpokladám, že sú to prvé lastovičky projektu eDemokracia a že sa môžeme tešiť na omnoho viac. Činní sú najmä na MF SR a v NASES-e.
- V SR zároveň došlo k zmene počtu reportovaných otvorených datasetov. Aktuálny údaj podľa samotného katalógu je 202. Avšak datasety označené licenciou CC-BY-SA (aktuálne 201) sú podľa mojich informácií iba chybou, ktorá sa stala pri migrácii a upgrade katalógu behom leta. A teda pre potreby tohto porovnania budem uvažovať, že pre dané datasety naďalej platí "nie je uvedená žiadna licencia" tak, ako bolo uvádzané pred migráciou. Za legitímne otvorené teda považujem len datasety s licenciou GFDL (aktuálne jeden, aj keď ten vyzerá byť výsledkom bezpečnostného incidentu).
- V UK a Taliansku pokračujú v pridávaní veľkého množstva nových datasetov a zároveň sa zvyšuje podiel tých s otvorenou licenciou.
- V Rakúsku pridávajú nové datasety, poklesol však podiel tých s otvorenou licenciou (zrejme pribudli datasety bez uvedenej licencie, čo veľmi neteší ale stále lepšie ako nič).
- SR, Maďarsko, Rusko ale aj ČR prudko zaostávajú za Rakúskom, Talianskom, Nemeckom aj UK v počte datasetov s otvorenou licenciou. V SR je to spôsobené stále nejasným právnym prostredím: otvorené licencie už v SR síce platia (viď. SOIT: Creative Commons a Prešla novela AutZ) ale licencie zatiaľ nie sú uplatňované a teda potencionálny používateľ otvorených údajov sa musí spoľahnúť len na výklad zákonov (ktorý je pracný, drahý a v nakoniec aj tak nechráni pred prípadnými žalobami).
- Rakúsko a Taliansko v podiele datasetov s otvorenou licenciou naďalej suverénne vedú: otvorené sú takmer všetky datasety. Írsko započalo publikovanie v lete 2014 a latku držia tiež vysoko (zhruba tri štvrtiny datasetov sú naozaj otvorené).
- SR, ČR a Maďarsko prudko zaostávajú za Rakúskom, Talianskom aj UK čo do počtu datasetov aj zdrojov.
Možné vylepšenia tohto porovnania
- Trendy (vykazovať prírastky a úbytky) + grafy.
- Bolo by zaujímavé porovnať aj zastúpenie použitých formátov a API. Je tam však veľká variabilita a navyše aj niektoré CSV je lepšie ako iné CSV a pod. Toť téma na ďalšie skúmanie.
- Bolo by zaujímavé vyčísľovať aj počty aplikácií postavených nad dátami. Takéto údaje však zatiaľ ucelene vedené nie sú.
Zdroje a metodika
Zdrojmi údajov sú API jednotlivých data katalógov:
- http://data.gov.sk/sk/api/
- http://cz.ckan.net/api/
- http://data.gov.uk/api/
- http://www.data.gv.at/katalog/api
- http://www.opendatahub.it/api/
- https://www.govdata.de/ckan/api/
- http://data.gov.ie/api/
- http://opendata.hu/api/
- http://hubofdata.ru/api/
Počty položiek sú získané jednoduchými "list
" a "search
" dotazmi, bez filtrovania či vyhodnocovania pomocou skriptu: https://github.com/hanecak/data-catalog-stats .
Čo je a čo nie je "otvorená licencia" je na rozhodnutí kurátorov daných katalógov. Dôležité totiž je, či a ako vyplnili položku "isopen
" k jednotlivým datasetom. Pre potreby tohto porovnania je "isopen=true" brané ako "otvorená licencia" a zbytok ako "nie otvorená licencia".
Aktuálne údaje vo forme CSV si môžete stiahnuť na adrese https://github.com/hanecak/data_data-catalog-stats/blob/master/data-catalog-stats-current.csv . Programátori či iný znalci sa tam doklikajú aj k historickým údajom.
Predchádzajúce vydania
In Open Data, we prefer simplicity and thus quite often apply KISS principle. You rarely see Open Data guy with specification 400 pages thick. But you can quite often encounter stuff like Open Definition, Creative Commons licenses (CC BY, CC0), REST API with JSON (instead of more complex SOAP and XML), etc.
It has its great advantages: We do not spend lots of time on many small things and thus get bigger stuff done instead.
On the other hand, it has loopholes: For example unwilling government clerk can exploit every omission in our simple specs so as to not release the data, or to release it but make it hard to use.
But not everything is lost. As the times goes, such stubborn clerk, even if clever, may run out of time. As the people loose patience, he might simply get replaced by more forthcoming clerk.
All hail the KISS principle.
image by Jantusla
Few notes and thoughts from Open Culture 2014 conference about what (open) culture have/can have in common with Open Data.
At the end, each section is sort of pitch for Open Data.
Happy, safe, connected and free
Nick Poole titled his keynote as "Happy, safe, connected and free - why Collections Management really matters".
So, if we use word "connected" in context of collections management, to me it implies that data/metadata about cultural works are/should be Linked Data.
Word "free" then implies Open Data, or - if connected with previous word - Linked Open Data.
Finally, Nick also claimed, that people trust heritage institutions. That trust is based on job being done properly, following high professional standards. I would add, based on word "trust", that also openness and transparency is in the picture too. And with that data, data freely available to general public, prefferable Open Data.
Putting collections to work
Hanna Pennock in her key not "Putting collections to work" quoted, that "Storage is black hole". That I think applies to both physical and digital storage.
But digital storage can be put into use, avoiding the "black hole" scenario and making the data about collections to work (work more). We just need to:
- Make sure that the information is published on the web (i.e. human readable).
- But also make sure it is available also in machine readable format and under permissive/open license.
Maybe the second option is even better to start with, as can be done in more cost effective way (just publish what you have as you have it) and then improve on that by say employing fully Linked Data or by providing nice web portals or applications, based on feedback from people who took a look/used at the data.
Hanna also mentioned the need for professionals to work with volunteers. As volunteers to not have the same equipment and know how, Open Data (open, simple, machine readable) would be useful in this context to empower them more,make them more productive, etc.
Open Data in museums?
If a museum already is publishing some data about its collection on the web, it is quite a small step to make all that data and metadata available also as Open Data, i.e. in open format, machine readable and under open license.
If such data is already on the web, it available under sort of open license already. Plus it also already is available in open formats (HTML, JPG, etc.).
So the only final step to take is to make the data machine readable. That too is easy: if museum has a web site powered by data from collections management software, it's quite trivial for developers to make that data available to other programmers.
But why to do that? It will broaden the audience of a museum, its collections, website, etc. How? Such data will get reused in mash-ups, applications etc. and will then drive attention of users also on a museum itself.
It went further: Open Data in museums? - Open Culture Unconference
Novšie vydanie
Nadviažem na predchádzajúci blog a skúsim založiť sériu, ktorá možno neskôr prerastie do serióznejšieho data journalism projektu: porovnanie Slovenska s niekoľkými ďalšími krajinami pokiaľ ide o počet zverejnených datasetov.
Porovnáme konkrétne Slovensko (SR), Česko (ČR), Rakúsko (AT), Taliansko (IT) a Veľkú Britániu (GB) čo do počtu zverejnených datasetov a ich licencií (k 5.9.2013):
SR | ČR | AT | IT | GB | |
---|---|---|---|---|---|
počet datasetov | 205 | 195 | 1043 | 6644 | 16662 |
počet zdrojov (resources) | 512 | 1689 | 11164 | 87073 | 113544 |
počet datasetov s otvorenou licenciou | 1 (0.5%) | 22 (11.3%) | 1041 (99.8%) | 1102 (16.6%) | 8723 (52.4%) |
počet datasetov s nie otvorenou licenciou | 204 | 173 | 2 | 5542 | 7939 |
Pozorovania
- SR aj ČR prudko zaostávajú za AT, IT aj GB v počte datasetov s otvorenou licenciou. V SR to o.i. môže byť spôsobené nejasným právnym prostredím (viď Otvorené licencie na Slovensku? Zabudnite!), čomu už čoskoro bude dúfajme koniec (viď. SOIT: Creative Commons a Prešla novela AutZ).
- AT v počte datasetov s otvorenou licencou suverénne vedie: otvorené sú skoro všetky datasety.
- SR aj ČR prudko zaostávajú za AT, IT aj GB čo do počtu datasetov aj zdrojov.
- SR zaostáva za ČR v počte zdrojov. To môže byť spôsobené napr. nerovnakou metodikou kategorizovania datasetov a zdrojov.
Možné vylepšenia porovnania
- Trendy (vykazovať prírastky a úbytky) + grafy.
- Bolo by zaujímavé porovnať aj zastúpenie použitých formátov a API. Je tam však veľká variabilita a navyše aj niektoré CSV je lepšie ako iné CSV a pod. Toť téma na ďalšie skúmanie.
- Bolo by zaujímavé vyčísľovať aj počty aplikácií postavených nad dátami. Takéto údaje však zatiaľ ucelene vedené nie sú.
Zdroje a metodika
Zdrojmi údajov sú API jednotlivých data katalógov:
- http://data.gov.sk/sk/api/
- http://cz.ckan.net/api/
- http://data.gov.uk/api/
- http://www.data.gv.at/katalog/api
http://data.gov.au/api/- nateraz vynechané, keďže mi akosi nefunguje dopyt na"search/resource"
- http://www.opendatahub.it/api/
Počty položiek sú získané jednoduchými "list
" a "search
" dotazmi, bez filtrovania či vyhodnocovania.
Čo je a čo nie je "otvorená licencia" je na rozhodnutí kurátorov daných katalógov. Dôležité totiž je, či a ako vyplnili položku "isopen
" k jednotlivým datasetom. Pre potreby tohto porovnania je "isopen=true" brané ako "otvorená licencia" a zbytok ako "nie otvorená licencia".
Crosspost
Predchádzajúce vydania