Blog

Tento príspevok vznikol na základe neplánovaného a veľmi smutného prieniku dvoch udalostí: 12. stretnutia komunity OpenData.sk a vraždy Jána Kuciaka a Martiny Kušnírovej. Vcelku dlho som premýšľal či a ako uchopiť myslienky, ktorá som mal v hlave pred, počas a po stretávke OpenData.sk (3.3.2018). Počkať sa vyplatilo, medzičasom sa čo to v hlave uležalo, pritieklo pár informácií navyše a hlavne, mnohí iní napísali. A napísali pekne a dobre (napríklad Adam Valček, Kristína Farkašová, atď.) Čiže ja k tomu pridám úvahu na tému "Open Data a boj proti korupcii".

Impulz zo stretávky

Stretávka komunity sa konala pri príležitosti Open Data Day 2018, ktorý bol 7. v poradí a jeho cieľom bolo poukázanie na prínosy otvorených údajov a nabádanie k ich využívaniu. Konkrétne na našom stretnutí sa to žiaľ nepodarilo podľa plánu, keďže vražda Jána Kuciaka a jeho Martiny Kušnírovej otvorila v našej spoločnosti veľmi veľa pálčivých a dôležitých tém, z ktorých niektoré presahujú aj do témy otvorených údajov. A teda poukázanie na benefity otvorených údajov prebieha teraz v SR úplne inak, výraznejšie ale smutnejšie.

Tragická smrť Jána a Martiny (vlastne celej ich nastávajúcej rodiny) a Jánova práca sú silný impulz pre celú spoločnosť, ale aj pre ďalšiu činnosti našej komunity. Pripomenula nám, že:

  1. jednou z hlavných motivácií pre otvorené údaje je transparentnosť
  2. jednou z hlavných skupín používateľov otvorených údajov sú (najmä investigatívni) novinári
  3. jedným z hlavných cieľov je boj proti korupcii

Aby nebola smrť dvoch mladých ľudí zbytočná, ostatní slušní ľudia potrebujú dokončiť ich prácu a začať čistiť našu spoločnosť od zavádzania, klamstiev, podvodov a aj od vrahov. Nuž a členovia iniciatívy OpenData.sk (a nie len oni, ale aj ktokoľvek ďalší) môžeme ešte konkrétne prispieť aj tým, že pomôžeme pre novinárov (a ďalších záujemcov) otvoriť čo najväčšie množstvo kvalitných údajov. Aby mohli svoju prácu robiť rýchlejšie a kvalitnejšie a tak nám ostatným pomohli v zlepšovaní celej spoločnosti ale aj zlepšovaní našich vlastných životov.

Výzva: Ak ste správcom nejakého informačného systému verejnej správy (či už ako "IT-čkár" alebo ako "vedúci"), ste dodávateľom takého systému (či už ako programátor, analytik, architekt, alebo aj obchodník), alebo takých ľudí poznáte, prípadne ste "len" nadšenec, ktorý chce pomôcť, prosím ozvite sa. Práce je dosť, zíde sa každá pomocná ruka. Ozvať sa môžete mailom (všeobecne na opendata<at>opendata.sk alebo súkromne na hanecak<at>opendata.sk), prípadne cez Facebook skupinu. Cieľom bolo, je a zrejme ešte dlho bude otvárať údaje. Dva či tri konkrétne námety sú pre ilustráciu načrtnuté nižšie.

Zároveň si dovolím dať do pozornosti aj tematicky veľmi blízku výzvu OZ Slovensko.Digital: "Nedávno nami otriasla násilná smrť novinára Jána Kuciaka a jeho partnerky. Vo svojej práci sa venoval aj prepojeniam IT biznisu na politiku. V tomto momente ešte viac pociťujeme potrebu podporiť občiansku angažovanosť a zodpovedné konanie. Chceme podporiť každého člena IT komunity, úradníka alebo zamestnanca, ktorý disponuje informáciami dôležitými pre objasnenie nekalých praktík v štátnom IT, aby ich ohlásil na polícii alebo sa obrátil na naše občianske združenie." Celé znenie tu.

Ako človek a aj ako člen a zástupca komunity OpenData.sk vyjadrujem pozostalým úprimnú sústrasť. Budem a budeme sa snažiť, aby smrť Jána a Martiny nebola zabudnutá a zbytočná.

Neviem písať tak pekne ako napríklad Kristína Farkašová a tak pripájam odkaz na jej článok "Prežiť neprežiteľné".

Trochu viac zoširoka

Ako súvisia otvorené údaje s bojom proti korupcii? Pomôžem si citátom z "Tackling Corruption Together: How Open Data Can Help Fight Corruption":

Ak sú informácie o činnosti verejnej správy limitované, predstavuje to príležitosti pre skorumpovaných na zneužívanie verejných zdrojov pre obohacovanie seba samých. Na vybudovanie transparentnosti, zodpovednosti a dôvery vo vládu, medzinárodná zmena smerom k otvorenosti je nevyhnutná.

Publikovanie otvorených údajov predstavuje proaktívne zverejňovanie údajov, kedy verejná správa nečaká na "žiadosť o informácie", ale priebežne, bez žiadostí a bez zbytočného zdržania zverejňuje všetky údaje, ktoré vrámci svojej činnosti zozbierala (výnimkou sú utajované okolnosti a vo väčšine prípadov aj osobné údaje), pre všetkých, zadarmo a na akýkoľvek účel (samozrejme, legálny). Takéto zverejnenie dáva príležitosť komukoľvek byť "kontrolórom štátu". Vrámci hesla "slnko je najlepší dezinfekčný prostriedok" si hocikto môže "posvietiť" na hocičo o čom sú zverejnené informácie. (Je to tiež príležitosť byť efektívnym partnerom/spolupracovníkom úradníkov pre tých, ktorí chcú spoločnosti pomôcť aj inak než len zaplatením daní.)

V rozvoji publikovania a používania otvorených údajov je komunita v SR našťastie zajedno s oficiálnymi politikami štátu (myslím, že najmä vďaka tzv. Otvorenému vládnutiu / OGP a občianskej participácii). A za uplynulé roky má Slovensko aj výsledky:

Čo ďalej? Z hodnotenia Európskeho dátového portálu (EUDP) vyplýva, že takmer všetko už máme veľmi dobré, len samotné údaje akosi chýbajú. A na údaje treba najmä:

  1. ľudí: dátových kurátorov a ďalší IT aj nie-IT personál vo verejnej správe ale aj mimo nej, ktorí by vedeli ich otvoriť/zverejniť
  2. financovanie: ktoré pokryje tých ľudí a (poväčšine drobné či malé) úpravy existujúcich alebo novo vznikajúcich informačných systémov

Otváranie údajov je podstatnou časťou mnohých strategických dokumentov a úloh. Tu problém nie je.

Problémom nie sú ani peniaze: Na zlepšovanie štátneho IT išli (OPIS, ...) a ešte pôjdu (OPII, EVS, ...) miliardy, pričom na otvorené údaje treba len nepatrný zlomok z toho.

Ostávajú teda ľudia, tých je aktuálne málo. Ľudia, ktorí sa otváraniu údajov najmä chcú venovať. (Prípadné chýbajúce know-how nie je problém, pomôžeme doplniť, nie je to ťažké, keďže ďalším princípom otvorených údajov sú jednoduchosť a otvorené štandardy.)

Konkrétne príklady

Dva konkrétne príklady, ako by tu a dnes zlepšenie publikovania otvorených údajov mohlo výrazne pomôcť dokončiť prácu Jána Kuciaka:

PPA a Kataster

Citujem príspevok Adama Valčeka (tiež investigatívneho novinára):

V týchto dňoch prichádzame na to, prečo je verejná kontrola poľnohospodárskych dotácií taká náročná. Predstavte si, že chcete vedieť, komu patrí pole za vašim domom. Čo urobíte? Kliknite na katastrálnu mapu a za pár sekúnd to viete.

Ale čo urobíte, keď chcete vedieť, kto dostáva dotácie na toto pole? Ľahké a rýchle to rozhodne nie je. Je to svet, v ktorom sa ktastrálne územie volá „názov štvorca“, kde sa parcela volá „kultúrny diel“ a najmä, kde názov štvorcov nekopíruje názvoslovie obcií a miest na Slovensku.

Pole v Dvoriankach tak nehľadáte v Dvoriankach, ale v rámci „štvorca“, ktorý má úplne iný názov. Jednoduché vyhľadávanie neexistuje. Musíte si otvoriť pôdnu mapu, prepnúť na satelitné zobrazenie a porovnávať podľa terénu, kde cca. sa nachádza územie, ktoré preverujete. Keď to už máte a netrvá to krátko, musíte zistiť, súčasťou akého „kultúrneho dielu“ je hľadaná parcela.

V mape zistíte číslo tohto kultúrneho dielu a to zadáte do vyhľadávača na webe Poľnohospodárskej platobnej agentúry, aby ste sa konečne dozvedeli, kto a koľko dotácií zinkasoval.

Ak chcete hľadať širšie vzťahy, napríklad kto s kým susedí, musíte parcelu po parcele, štvorec po štvorci, kultúrny dielik po dieliku preverovať. Keď chcete zistiť, ktorá firma má koľko parciel — „kultúrnych dielov“, vlastne to nezistíte (také vyhľadávanie som zatiaľ nenašiel).

#opendata #allforjan

Toť silný argument pre riadne a rýchle otvorenie konkrétnych údajov z Poľnohospodárskej platobnej agentúry (PPA) a Katastra. (A nie, vylepšenie iba existujúcich webových portálov a ich vyhľadávacích funkcií nestačí. Jeden z dôvodov je načrtnutý v nasledujúcom odstavci.)

Žiadosti o informácie môžu byť aj nebezpečné

V článku "Freedom of Information Law: Reporter’s Best Friend or Killer?" rozoberajú autori (Vlad Lavrov a Eva Kubaniova) možnosť, že sa o aktivitách a rozpracovanom článku Jána Kuciaka dozvedel objednávateľ vraha od verejných funkcionárov, ktorí spracúvali jeho žiadosti o informácie.

V tomto kontexte je proaktívne publikovanie otvorených údajov kľúčové: údaje ktoré sú voľne dostupné na webe netreba písomne žiadať a zároveň je pre štát výrazne ťažšie (a na základe princípov Open Data aj zbytočné) podrobne sledovať, kto čo sťahuje. Dá sa teda povedať, že čím viac údajov štát zverejní ako otvorené údaje, tým menšie riziko predstavuje práca s údajmi pre investigatívnych novinárov (alebo aj v menej kritickom kontexte: tým menšie riziko napr. pre start-upy, že ich nový biznis nápad bude predčasne prezradený).

Poznámky povedľa:

  • Obdobné platí, ak by Ján alebo iní pracovali s údajmi síce bez žiadosti, ale cez/na štátom prevádzkovaných portáloch. Zo záznamov v týchto portáloch sa totiž zvyčajne dá tiež veľmi dobre zrekonštruovať, kto čo zisťoval.
  • Proaktívne zverejňovanie otvorených údajov má výhody aj pre samotných úradníkov: šetrí im prácu pri vybavovaní "infožiadostí" a zároveň je napríklad výrazne ťažšie ich podozrievať, že vynášajú citlivé informácie o používateľoch údajov.

Pokým pre projekt MapaZlocinu.sk vybavujeme podrobnejšie údaje, využili kolegovia skúsenosti a vyrobili aj GEO report o podnetoch prijatých od občanov bratislavskej mestskej časti Nové Mesto vrámci projektu Participatívneho rozpočtu:

Elektronický kontraktačný systém poskytuje na adrese https://portal.eks.sk/Reporty/OtvoreneUdaje dva reporty v podobe otvorených údajov:

Je dobré, že stránka aj údaje majú čitateľné a aj zrejme stabilné URL:

Má to ale aj nedostatky:

Pre prístup k údajom sa treba registrovať. To je podľa mňa v prípade CSV/ZIP súborov zbytočné, keďže prístup k otvoreným údajom býva zvyčajne anonymný a autentifikácia sa používa iba pri prístupoch k tzv. API (viď referencie), keďže tie zaťažujú servery výrazne viac než sťahovanie malých či stredne veľkých súborov. Nuž a čože je dnes 35 MB.

Referencie: Opieram sa napr. o:

  • základnú "open definition" (http://opendefinition.org/) "Open data and content can be freely used, modified, and shared by anyone for any purpose"
  • US Open Data API basics: "Easy access to all this data and resources is great, but sometimes we need to control access to APIs"

Ďalej, chýba aj veľmi dôležitá položka: licencia k údajom. Zo 65 stránkových podmienok použitia veľmi múdry nie som, takže sa opieram najmä o §52 vo Výnose 55/2014, ktorý si ja ako laik/neprávnik vysvetľujem ako ekvivalent licencie CC0. Preto som si aj dovolil k tejto stránke priložiť kópie reportov. (smile)

A na koniec, údaje nie sú registrované na data.gov.sk, takže sú ťažšie nájditeľné. (plus to nie je v súlade s už spomenutým Výnosom, konkrétne §53, ods. f)

Celkovo teda tento počin vnímam pozitívne a dúfam, že napr. s nástupom projektu eDemokracia sa reporty čoskoro objavia aj na data.gov.sk, kde budú prístupné bez nutnosti registrácie a s riadne uvedenou licenciou.

Prečítal som si dnes (13.4.2015) správu "Vienna makes geodata available for free" (linka: https://joinup.ec.europa.eu/node/140488) z ktorej citujem:

The Vienna Municipal Department of Land Surveying, MA 41, has made all of its geodata available for free. This data includes multi-purpose (surface) maps, orthophotos, terrain models, structure models, and surface models, all part of the Geodata Infrastructure.

Viedeň publikuje väčšinu svojich údajov pod licenciou CC BY 3.0 AT (viď napr. Web Map Tile Service (WMTS)).

Podobné plány má napr. aj Praha, viď článok "Prague Open Geo-Data published" (linka: http://www.epsiplatform.eu/content/prague-open-geo-data-published):

The Prague Institute of Planning and Development (which runs the Prague Geoportal) has announced that from 1 April 2015, various groups of geodata will be published in an open data format, with the Institute also providing guidelines and additional documents for data users.

V Prahe tiež vyzerá zvolili CC licenciu, konkrétne CC BY SA 4.0 (viď http://www.geoportalpraha.cz/cs/clanek/276/licencni-podminky-pro-otevrena-data).

V SR to v tomto ohľade zatiaľ vyzerá biedne, o.i. aj kvôli spôsobu nákupu niektorých geo údajov, ku ktorým sú uzatvárané veľmi reštriktívne zmluvy neumožňujúce ďalší šírenie či "reuse" informácií, viď napr.:

Ako "zákazníci" by sme si teda mali "dupnúť" a (zrejme za príplatok, ale v konečnom dôsledku omnoho výhodnejšie) si obstarať pri nákupe všetky práva tak, aby bolo možné dané údaje aj publikovať ako "otvorené údaje". Prečo "zákazníci": nákupy sa realizujú z daní občanov - t.j. nás všetkých  - a realizujú ich úrady, kde priamo či nepriamo nominujú zástupov opäť len občania - t.j. mi všetci. Ak pri takomto nastavení "fungujú" dodávatelia Viedne či Prahy, mali by toho byť schopný aj tí naši.

Update k 14.4.2015: Špecifickým symptómom nedostatočne vysporiadaných práv je aj to, že sa tie isté údaje nakupujú štátnou správou a samosprávou opakovane (raz ich kúpi nejaké ministerstvo, raz nejaká agentúra, neskôr si časť kúpi nejaká obec a takto stále dokola) pričom následne aj tak ostáva mnoho úradov a samospráv bez prístupu k daným údajom. Viď napr. záznam z rokovania Koordinačnej rady národnej infraštruktúry pre priestorové informácie zo dňa 10.12.2014, bod 6: nemožnosť zrealizovať letecké meračské snímkovanie a letecké laserové skenovanie tak, aby boli výsledky použiteľné celou verejnou správou, pričom dopyt od verejnej správy jednoznačne je.

A dopyt je aj od občanov, viď výsledky z nedávnej konzultácie Open Data (https://github.com/otvorenavlada/akcnyplan2015/tree/master/uloha-03), z ktorých vyberám:

  • Kataster nehnuteľností (ÚGKK)
  • Register adries (Ministerstvo vnútra)

(plus mnohé ďalšie údaje majú úzky súvis s GEO a mapovými údajmi, bez korých sa dajú len ťažko plnohodnotne využiť: údaje o dopravných nehodách a kriminalite, cestovné poriadky, údaje o životnom prostredí, stavených a územných konaniach, atď.)

Čiže si dupnúť treba. A treba dupnúť tak, aby sa k údajom dostali aj samotní občania.


Týmto tiež ďakujem Jánovi Gondoľovi a Martinovi Tuchyňovi za inšpiráciu a niektoré odkazy.

Peter Hanečák, 13. a 14.4.2015

Prioritne datasety 2015

Úrad splnomocnenca vlády SR pre rozvoj občianskej spoločnosti v spolupráci s Národnou agentúrou pre sieťové a elektronické služby sa slovenskej verejnosti pýtajú na prioritné údaje verejnej správy, tie ktoré vôbec dostupné nie sú ale aj tie ktoré dostupné sú ale ich dostupnosť treba zlepšiť. Viď výzvu na adrese http://bit.ly/konzultacia a samotný formulár na adrese http://bit.ly/konzultacia2015 . Verejná konzultácia prebieha do 17.3.2015.

Na OSS víkende dňa 14.3.2015 odznela pripomienka od návštevníka, že on by sa aj rád zapojil ale nevie čo má chcieť.

Zneužijem teda zopár vecí, ktoré mi utkveli v pamäti za ostatné roky participácie v komunite OpenData.sk a dám odporúčanie na to, "čo by sme mali chcieť" tým, že tu uvediem moju odpoveď do verejnej konzultácie.

Na OSS víkende bol spomenutý OKFN index, budem sa teda opierať aj o ten. Viď celý index za rok 2014 na adrese http://index.okfn.org/ a konkrétne údaje za Slovensko na adrese http://index.okfn.org/place/slovakia/ .

Väčšina položiek je v časti "treba zlepšiť ich dostupnosť", keďže dnes už sú dostupné, ale iba ako HTML, cez webové portály. A teda nedajú sa (ľahko) stiahnuť, nie sú strojovo spracovateľné, atď.

Poradie je moje, subjektívne, na základe odhadovaného dopytu a pozitívnych dopadov.

Z odporúčania si teda povyberajte čo sa páči Vám, zmeňte poradie podľa vlastných preferencií, prípadne doplňte a odošlite do Verejnej konzultácie. Prosba: Ak ste niečo pridali, dajte mi prosím vedieť na hanecak(at)opendata.sk . Vopred ďakujem.

Sprístupnenie ktorých (momentálne nedostupných) údajov je pre Vás dôležité?

  1. stavebné konania (jednotlivé miestne aj vyššie stavebné úrady): kde sa kedy a čo mení, kde a kedy bola podaná žiadosť na čo, atď.
  2. evidencia sťažností, podaní, petícií (všetci): anonymizované (alebo aspoň agregované) údaje o tom, kedy a k čomu boli občanmi podané podnety + stav vybavenia
  3. štatistiky kriminality (MV SR, prípadne mestské polície): anonymizované, až na úroveň dní a ulíc
  4. štatistiky dopravných nehôd (MV SR): anonymizované, až na úroveň dní a ulíc
  5. zoznamy či štatistiky počtu a druhov vozidiel v SR (MDVRR SR)
  6. zoznam chránených a inak významných území (SAŽP, možno ďalší): vrátane tzv. "shape"

  7. zoznam sudcov (MS SR)

  8. zoznam športovísk (MŠ SR)
  9. zoznam múzeí, galérií, knižníc, atď. (MK SR)
  10. zoznam výskumných projektov (MŠ SR)
  11. lesné hospodárske plány (???): kde sa má koľko vyťažiť

Pri ktorých údajoch je potrebné zlepšiť ich dostupnosť?

  1. mapové údaje (Geodetický a kartografický ústav Bratislava, zrejme aj iní): pridať ulice, riadne zdokumentovať (čiastočne existujúce) REST API
  2. zoznam PSČ, ulíc, adresných bodov (Slovenská pošta, MV SR): chýbajú v ňom aktuálne ulice v mnohých mestách + GPS koordináty
  3. Obchodný register (MS SR)
  4. celkovo jeden alebo viac registrov, kde by boli všetky organizácie (s.r.o., a.s., živnostníci, neziskové organizácie, nadácie, o.z., verejné inštitúcie, atď.)
  5. Kataster: sprístupnenie pomocou REST API
  6. zmluvy, objednávky a faktúry (ÚV SR):
    1. špecificky CRZ.gov.sk: pridať REST API
    2. všeobecne pre celú štátnu správu a samosprávu: použiť otvorený súborový formát alebo REST API, najlepšie s jednotnou schémou/formátom pre celú SR, ideálne s jednotnou kategorizáciou druhov výdavkov
  7. cestovné poriadky (ŽSR, ale aj iný štátom či samosprávou prevádzkovaní dopravcovia): použiť napr. formát GTFS
  8. plán štátneho rozpočtu (MF SR)
  9. čerpanie štátneho rozpočtu (MF SR): až na úroveň transakcií (jednotlivých platieb)
  10. národné štatistiky (ŠÚ SR) 
  11. obchodný vestník (MS SR) 
  12. súdne rozhodnutia (MS SR)
  13. právne informácie (MS SR) 
  14. informácie o znečistení a emisiách (SHMÚ, možno aj ďalší): voda, vzduch, zem
  15. informácie z rokovaní vlády (ÚV SR): čo a kedy bolo prejednané + linky na materiály + hlasovania
  16. hlasovania poslancov + prepisy ich vystúpení (NR SR)
  17. výsledky volieb (ŠÚ SR)
  18. zoznam rozhodnutí o kontrole (ÚVO): lepšie CSV, t.j. pridať do samotného CSV aj položky "číslo oznámenia", "číslo rozhodnutia", "linka na plné znenie rozhodnutia v PDF", "ako bolo rozhodnuté", prípadne ďalšie metaúdaje ak sú k dispozícii

Vo všetkých prípadoch tiež platí:

  • použiť otvorený, strojovo spracovateľný formát, prípadne REST API
  • uviesť jednoznačnú otvorenú licenciu, ideálne napr. CC-BY
  • ľahko nájditeľné tlačítko "stiahnuť / download" alebo "API" (s linkou na API samotné ale aj dokumentáciu k API)
  • ubezpečiť sa, že je popis údajov a linka na údaje alebo API uvedená na data.gov.sk

Doplnenie

2017: Na základe výsledkov verejnej konzultácie bola sformulovaná úloha č. 3 akčného plánu OGP na rok 2015, viď:

Prieskum bol neskôr zopakovaný aj v roku 2017 (úlohy č. B.8 a B.14 akčného plánu 2017-2019) a výsledky možno nájsť tu:

2020: Prioritizácia datasetov už prebieha aj na úrovni EÚ, viď High value datasets, ako súčasť revízií PSI smernice, ktoré bude SR transponovať do našej legislatívy.

 

V súvislosti s článkom "Dôležitý prvok eDemokracie - otvorené dáta" (ďalej len článok) ma napadlo, že za chvíľu sa prestanem(-e) vyznať v tom, čo s čím a ako súvisí v problematike otvorených údajov v SR, konkrétne hlavne z technickej stránky (tá ma zaujíma najviac, keďže participujem na vývoji nástrojov - viď aj nižšie vysvetlivku k mojej osobe). Aby som sa v tom vyznal aj naďalej a prípadne to vedel vysvetliť aj ďalším záujemcom, píšem túto krátku vysvetlivku. A keďže je to o otvorených údajoch, tak ju píšem ako otvorený obsah.

V článku sa o.i. spomínajú veci ako:

  • Vybuduje sa centrálny portál pre otvorené dáta.
  • Nasadia sa nástroje pre vytváranie otvorených dát.
  • Jednotný systém: rozhrania pre prístup k dátam, možnosť ukladania dát pre inštitúcie, metodická podpora, transformačné nástroje, ...
  • Zapoja sa nové i staršie systémy.

Pozor, nie o všetkých veciach mám podrobný prehľad. A niektoré veci si môžem pamätať zle. Alebo som ich príliš zjednodušil, aby bol tento blog krátky. Ak teda niečo nesedí, dajte mi prosím vedieť.

História

Veľmi zhruba, neúplne a možno nepresne: Kde bolo tam bolo, udiali sa veci asi v takomto poradí:

  1. cca 2011: vznikla myšlienka Open Data Node (viď napr. teraz už obstarožnú štúdiu)
  2. cca 2011, 2012: SR sa pripojila k OGP (viď http://www.otvorenavlada.gov.sk/ogp-home/), čoho výsledkom bol vznik o.i. aj data.gov.sk
  3. 2013: odštartoval projekt COMSODE
  4. 2013: keďže v projekte COMSODE figurujú aj MV SR a MF SR, bola logická vôľa nevymýšľať koleso dva krát a teda využiť v SR pre otvorené údaje aj výsledky z COMSODE
  5. 2014: započala sa implementácie projektu eDemokracia

Technické súvislosti

V skratke: eDemokracia, z pohľadu Open Data, teda stavia na existujúcom dátovom katalógu data.gov.sk a preberá výsledky z COMSODE. Do oboch pridáva dodatočné funkcie a následne ich prepája navzájom a tiež s existujúcim Ústredným portálom štátnej správy (UPVS, https://www.slovensko.sk/sk/titulna-stranka).

Ďalej sa v článku spomína, že "všetky nové informačné systémy budú budované tak, aby boli pripravené na otvorené údaje a boli schopné zverejniť informácie do centrálnej platformy a zároveň poskytovať obsah (vrátane rozhraní - API)". Na toto vrámci Štandardizačnej komisie vznikol pojem "Open Data Ready" a verejne ho asi ako prvý použil Ľubor Illek zo SOIT (viď http://www.itapa.sk/4474-sk/open-data-forum/).

Z pohľadu COMSODE zapadá eDemokracia do tzv. deployment konceptu takto:

Dátový katalóg

data.gov.sk už síce existuje, ale vrámci eDemokracie bude rozšírený o "vychytávky" typu:

  • podpora toho, čo v článku opísali ako "portál pre otvorené dáta bude orientovaný na vznik inovatívnych komunít"
  • integrácia s UPVS, cez ktorý budú môcť občania podávať žiadosti o sprístupnenie nových údajov (či už "kvázi anonymne" na nezáväznej báze alebo - vďaka UPVS - podpísané novým elektronickým občianskym preukazom a teda záväzne)

Open Data Node

COMSODE vytvára tzv. Open Data Node (ODN, intro: what it is, what it does, what is next), ktorý bude vrámci eDemokracie použitý dvojmo:

  • ako centrálny komponent, prepojený s data.gov.sk
  • ako samostatná aplikácia

 

V role centrálneho komponentu zabezpečí ODN mnohé z  funkcií toho, čo v článku nazvali "jednotný systém" resp. "platforma" (centrálna). Z pohľadu COMSODE je to kombinácia use-case "aggegator of Open Data" a "publisher of Open Data" (viď Scheme of actors and hierarchies).

V role samostatnej aplikácie ODN zabezpečí najmä integráciu "starších systémov" na "centrálnu platformu". To je jedna z hlavných úloh, na ktorú bol ODN od svojich počiatkov stavaný. Z pohľadu COMSODE je to najmä use-case "publisher of Open Data".

ODN ale môže pomôcť aj pri tvorbe nových IS, aby boli "Open Data Ready". A to tým, že si tvorcovia týchto nových IS z ODN "požičajú" (reuse) časti relevantné pre integráciu s "centrálnou platformou", transformačné funkcie a pod. Z pohľadu COMSODE to má najbližšie k use-case "application developer using Open Data".

Metodológie

Projekt COMSODE vyprodukoval aj metodológiu na publikovanie otvorených údajov, viď "Methodology for publishing datasets as Open Data".

V ČR si túto metodológiu osvojilo napr. MV ČR (viď http://www.mvcr.cz/clanek/otevrena-data.aspx alebo https://www.facebook.com/groups/180824635305518/permalink/740436402677669/). Predpokladám, že obdobne túto metodológiu použijeme aj v SR ako základ pre metodickú podporu inštitúcií.

Vysvetlivka: ako s tým súvisím ja?

Ako člen iniciatívy OpenData.sk som sa pripojil k vytváraniu konceptu Open Data Node zhruba v roku 2011.

Vďaka tomu som sa dostal do teamu projektu COMSODE, v ktorom zodpovedám za vývoj ODN.

To následne spôsobilo, že poskytujem aj konzultácie k tým častiam projektu eDemokracia, ktoré súvisia s problematikou otvorených údajov.

Peter Hanečák, 8.1.2015


text:

Pokračujem teda v sérii občasníkov, ktorá možno neskôr prerastie do serióznejšieho data journalism projektu: porovnanie Slovenska s niekoľkými ďalšími krajinami pokiaľ ide o počet zverejnených datasetov. Nie úplne presná či všeobjímajúca metrika, ale predsa len čiastočne použiteľný čiastkový indikátor.

Porovnáme konkrétne Slovensko (SR), Česko (ČR), Rakúsko (AT), Taliansko (IT), Veľkú Britániu (GB) a oproti ostatnému porovnaniu pribudli aj Nemecko (DE) Írsko (IE) a Maďarsko (HU) a Rusko (RU). Porovnávame čo do počtu zverejnených datasetov a ich licencií k 18.12.2014:

 SRČRATITGBDEIEHURU
počet datasetov220178166090332015610441424475860
počet zdrojov (resources)561157359182321172307316549998527359
počet datasetov s otvorenou licenciou1 (0.45%) (warning)25 (14.04%)1509 (90.9%)8986 (99.47%)11722 (58.16%)7913 (27.12%)115 (75.79%)4 (8.51%)497 (8.48%)
počet datasetov s nie otvorenou licenciou2191531514784342528309435363
Pozorovania
  1. V ČR to čisto z pohľadu dátového katalógu vyzerá na stagnáciu. Aj keď teda viem, že približne 30 datasetov z ČR pribudlo tu: http://data.comsode.eu/dataset?tags=cz .
  2. V SR nastalo v posledných mesiacoch mierne oživenie a pribúdajú datasety (15 nových datasetov od mája 2014). Predpokladám, že sú to prvé lastovičky projektu eDemokracia a že sa môžeme tešiť na omnoho viac. Činní sú najmä na MF SR a v NASES-e.
  3. (warning) V SR zároveň došlo k zmene počtu reportovaných otvorených datasetov. Aktuálny údaj podľa samotného katalógu je 202. Avšak datasety označené licenciou CC-BY-SA (aktuálne 201) sú podľa mojich informácií iba chybou, ktorá sa stala pri migrácii a upgrade katalógu behom leta. A teda pre potreby tohto porovnania budem uvažovať, že pre dané datasety naďalej platí "nie je uvedená žiadna licencia" tak, ako bolo uvádzané pred migráciou. Za legitímne otvorené teda považujem len datasety s licenciou GFDL (aktuálne jeden, aj keď ten vyzerá byť výsledkom bezpečnostného incidentu).
  4. V UK a Taliansku pokračujú v pridávaní veľkého množstva nových datasetov a zároveň sa zvyšuje podiel tých s otvorenou licenciou.
  5. V Rakúsku pridávajú nové datasety,  poklesol však podiel tých s otvorenou licenciou (zrejme pribudli datasety bez uvedenej licencie, čo veľmi neteší ale stále lepšie ako nič).
  6. SR, Maďarsko, Rusko ale aj ČR prudko zaostávajú za Rakúskom, Talianskom, Nemeckom aj UK v počte datasetov s otvorenou licenciou. V SR je to spôsobené stále nejasným právnym prostredím: otvorené licencie už v SR síce platia (viď. SOIT: Creative Commons a Prešla novela AutZ) ale licencie zatiaľ nie sú uplatňované a teda potencionálny používateľ otvorených údajov sa musí spoľahnúť len na výklad zákonov (ktorý je pracný, drahý a v nakoniec aj tak nechráni pred prípadnými žalobami).
  7. Rakúsko a Taliansko v podiele datasetov s otvorenou licenciou naďalej suverénne vedú: otvorené sú takmer všetky datasety. Írsko započalo publikovanie v lete 2014 a latku držia tiež vysoko (zhruba tri štvrtiny datasetov sú naozaj otvorené).
  8. SR, ČR a Maďarsko prudko zaostávajú za Rakúskom, Talianskom aj UK čo do počtu datasetov aj zdrojov.
Možné vylepšenia tohto porovnania
  1. Trendy (vykazovať prírastky a úbytky) + grafy.
  2. Bolo by zaujímavé porovnať aj zastúpenie použitých formátov a API. Je tam však veľká variabilita a navyše aj niektoré CSV je lepšie ako iné CSV a pod. Toť téma na ďalšie skúmanie.
  3. Bolo by zaujímavé vyčísľovať aj počty aplikácií postavených nad dátami. Takéto údaje však zatiaľ ucelene vedené nie sú.
Zdroje a metodika

Zdrojmi údajov sú API jednotlivých data katalógov:

Počty položiek sú získané jednoduchými "list" a "search" dotazmi, bez filtrovania či vyhodnocovania pomocou skriptu: https://github.com/hanecak/data-catalog-stats .

Čo je a čo nie je "otvorená licencia" je na rozhodnutí kurátorov daných katalógov. Dôležité totiž je, či a ako vyplnili položku "isopen" k jednotlivým datasetom. Pre potreby tohto porovnania je "isopen=true" brané ako "otvorená licencia" a zbytok ako "nie otvorená licencia".

Aktuálne údaje vo forme CSV si môžete stiahnuť na adrese https://github.com/hanecak/data_data-catalog-stats/blob/master/data-catalog-stats-current.csv . Programátori či iný znalci sa tam doklikajú aj k historickým údajom.

Predchádzajúce vydania

 

text:

In Open Data, we prefer simplicity and thus quite often apply KISS principle. You rarely see Open Data guy with specification 400 pages thick. But you can quite often encounter stuff like Open Definition, Creative Commons licenses (CC BY, CC0), REST API with JSON (instead of more complex SOAP and XML), etc.

It has its great advantages: We do not spend lots of time on many small things and thus get bigger stuff done instead.

On the other hand, it has loopholes: For example unwilling government clerk can exploit every omission in our simple specs so as to not release the data, or to release it but make it hard to use.

But not everything is lost. As the times goes, such stubborn clerk, even if clever, may run out of time. As the people loose patience, he might simply get replaced by more forthcoming clerk.

All hail the KISS principle. (smile)

image by Jantusla


text: , image:

Open Culture 2014

Few notes and thoughts from Open Culture 2014 conference about what (open) culture have/can have in common with Open Data.

At the end, each section is sort of pitch for Open Data. (smile)



Happy, safe, connected and free

Nick Poole titled his keynote as "Happy, safe, connected and free - why Collections Management really matters".

So, if we use word "connected" in context of collections management, to me it implies that data/metadata about cultural works are/should be Linked Data.

Word "free" then implies Open Data, or - if connected with previous word - Linked Open Data.

Finally, Nick also claimed, that people trust heritage institutions. That trust is based on job being done properly, following high professional standards. I would add, based on word "trust", that also openness and transparency is in the picture too. And with that data, data freely available to general public, prefferable Open Data.

Putting collections to work

Hanna Pennock in her key not "Putting collections to work" quoted, that "Storage is black hole". That I think applies to both physical and digital storage.

But digital storage can be put into use, avoiding the "black hole" scenario and making the data about collections to work (work more). We just need to:

  1. Make sure that the information is published on the web (i.e. human readable).
  2. But also make sure it is available also in machine readable format and under permissive/open license.

Maybe the second option is even better to start with, as can be done in more cost effective way (just publish what you have as you have it) and then improve on that by say employing fully Linked Data or by providing nice web portals or applications, based on feedback from people who took a look/used at the data.

Hanna also mentioned the need for professionals to work with volunteers. As volunteers to not have the same equipment and know how, Open Data (open, simple, machine readable) would be useful in this context to empower them more,make them more productive, etc.

Open Data in museums?

If a museum already is publishing some data about its collection on the web, it is quite a small step to make all that data and metadata available also as Open Data, i.e. in open format, machine readable and under open license.

If such data is already on the web, it available under sort of open license already. Plus it also already is available in open formats (HTML, JPG, etc.).

So the only final step to take is to make the data machine readable. That too is easy: if museum has a web site powered by data from collections management software, it's quite trivial for developers to make that data available to other programmers.

But why to do that? It will broaden the audience of a museum, its collections, website, etc. How? Such data will get reused in mash-ups, applications etc. and will then drive attention of users also on a museum itself.

Nadviažem na predchádzajúci blog a skúsim založiť sériu, ktorá možno neskôr prerastie do serióznejšieho data journalism projektu: porovnanie Slovenska s niekoľkými ďalšími krajinami pokiaľ ide o počet zverejnených datasetov.

Porovnáme konkrétne Slovensko (SR), Česko (ČR), Rakúsko (AT), Taliansko (IT) a Veľkú Britániu (GB) čo do počtu zverejnených datasetov a ich licencií (k 5.9.2013):

 SRČRATITGB
počet datasetov2051951043664416662
počet zdrojov (resources)51216891116487073113544
počet datasetov s otvorenou licenciou1 (0.5%)22 (11.3%)1041 (99.8%)1102 (16.6%)8723 (52.4%)
počet datasetov s nie otvorenou licenciou204173255427939
Pozorovania
  1. SR aj ČR prudko zaostávajú za AT, IT aj GB v počte datasetov s otvorenou licenciou. V SR to o.i. môže byť spôsobené nejasným právnym prostredím (viď Otvorené licencie na Slovensku? Zabudnite!), čomu už čoskoro bude dúfajme koniec (viď. SOIT: Creative Commons a Prešla novela AutZ).
  2. AT v počte datasetov s otvorenou licencou suverénne vedie: otvorené sú skoro všetky datasety.
  3. SR aj ČR prudko zaostávajú za AT, IT aj GB čo do počtu datasetov aj zdrojov.
  4. SR zaostáva za ČR v počte zdrojov. To môže byť spôsobené napr. nerovnakou metodikou kategorizovania datasetov a zdrojov.
Možné vylepšenia porovnania
  1. Trendy (vykazovať prírastky a úbytky) + grafy.
  2. Bolo by zaujímavé porovnať aj zastúpenie použitých formátov a API. Je tam však veľká variabilita a navyše aj niektoré CSV je lepšie ako iné CSV a pod. Toť téma na ďalšie skúmanie.
  3. Bolo by zaujímavé vyčísľovať aj počty aplikácií postavených nad dátami. Takéto údaje však zatiaľ ucelene vedené nie sú.
Zdroje a metodika

Zdrojmi údajov sú API jednotlivých data katalógov:

Počty položiek sú získané jednoduchými "list" a "search" dotazmi, bez filtrovania či vyhodnocovania.

Čo je a čo nie je "otvorená licencia" je na rozhodnutí kurátorov daných katalógov. Dôležité totiž je, či a ako vyplnili položku "isopen" k jednotlivým datasetom. Pre potreby tohto porovnania je "isopen=true" brané ako "otvorená licencia" a zbytok ako "nie otvorená licencia".

Predchádzajúce vydania