Upozornenie
Táto pracovná verzia bola uzavretá. Na budúcich verziách sa pracuje na stránke Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát
Návrh technickej špecifikácie štandardov pre zverejňovanie datasetov v SR. Návrh sa inšpiruje a koordinuje výstupmi pracovnej skupiny, ktorá rieši agendu Otvoreného vládnutia u splnomocnenca vlády SR pre rozvoj občianskej spoločnosti na Úrade vlády a tie6 v7stupmi z pracovnej skupiny PS3 Standardizacnej komisie MF SR.
Návrh možno prebrať a po relevatných úpravách ustanoviť ako špecifikáciu pre subjekt, ktorý bude podľa nej zverejňovať údaje. Subjektom sa zvyčajne myslí organizácia verejnej správy.
Časť 1: Datasety a zverejňovanie
V tomto dokumente sú uvedené požiadavky na štandardy sprístupňovanie údajov v rámci siete Internet filozofiou Open Data. Popisuje štandardy týkajúce sa samotného sprístupňovania údajov.
Údaje sú vždy súčasťou určitého dátového zdroja (datasetu). Dataset je ucelená skupina údajov, vytvorená a udržiavaná za určitým účelom. Dátové zdroje verejnej správy sú vytvárané za účelom podpory služieb verejnej správy, služieb vo verejnom záujme alebo verejných služieb. Jednotlivé agendy súvisiace s výkonom verejnej správy môžu obsahovať viaceré dátové zdroje. Charakteristickým znakom dátového zdroja je jeho samostatná použiteľnosť (výpovedná hodnota) nezávisle od iných dátových zdrojov. Ďalšími znakmi popisujúcimi dátový zdroj sú názov, účel (zameranie), typy spracúvaných údajov a vzťahy medzi nimi, formát údajov a podobne – tzv. metadáta.
Sprístupnenie dátového zdroja zabezpečuje jeho správca na základe vlastného rozhodnutia a pomocou vlastných prostriedkov (t.j. napr. portáli otvorených dát budú uložené len katalógy, nie samotné údaje).
Tento dokument definuje minimálne štandardy, ktoré by mali spĺňať datasety verejnej správy zverejnené ako Open Data. Základná požiadavka na spôsob sprístupnenia údajov je, aby údaje boli automatizovane strojovo spracovateľné. Štandardy sú vytvorené na dosiahnutie tejto požiadavky. Toto kritérium je pre minimálne štandardy základným merítkom splnenia požiadavky na sprístupnenie údajov.
(TODO: upresniť, ktorých organizácií sa toto týka, lebo úplne všetkých asi nie) Zároveň sú správcovia dátových zdrojov povinní dodržiavať zákon č.275/2006 Z.z. o ISVS vznp. (ďalej "zákon") a príslušné štandardy pre ISVS vydané MF SR ( §2 ods.3 písm. a) zákona). Na základe §3 ods.4 písm. d) „povinné osoby, ktoré sú správcami, sú povinné sprístupňovať verejnosti údaje z informačných systémov verejnej správy, ak osobitný predpis neustanovuje inak“ a e) „povinné osoby, ktoré sú správcami, sú povinné sprístupňovať alebo na požiadanie poskytnúť bezplatne iným povinným osobám údaje z informačných systémov verejnej správy potrebné na ich činnosť, ak osobitný predpis) neustanovuje inak“ zákona všetky ISVS už sú na sprístupňovanie údajov pripravené. To znamená, že iniciatíva data.gov.sk je skôr organizačnou záležitosťou. Štandardy pre ISVS aktuálne obsahuje Výnos MF SR č.312/2010 Z.z. (ďalej "výnos").
Všetky používané štandardy musia byť otvorené a technologicky neutrálne ( §6 ods.1 zákona).
Časť 2: Formáty údajov
Rozlišujeme dva základné spôsoby sprístupnenia:
- prístup k súborom s údajmi - ide o pasívny spôsob prístupu, kde server sprístupní "naraz" celý blok údajov (súbor), vyhľadávanie v údajoch je ponechané na používateľa
- prístup cez aplikačné rozhranie (API) - ide o aktívny prístup, kde používateľ zadáva serveru dotazy na konkrétne požadovaná údaje, ktoré server po spracovaní dotazu vyhľadá a odošle
URI
TODO: doplnit, o.i. aj podla D7.1.3 - Study on persistent URIs, with identification of best practices and recommendations on the topic for the MSs and the EC
Formáty súborov
- ide spravidla o súbory obsahujúce tabuľky
- minimálne požiadavky na formáty:
- odporúčané formáty: Linked data vo formátoch RDF (Turtle, RDF/XML, ...), OWL, SKOS, ...
Prípustné nie sú:
- tabuľky vyjadrené v textovom súbore
- proprietárne formáty tabuľkových súborov - napr. XLS
- súbory obsahujúce aktívne prvky tabuliek (napr. makrá, vzorce)
- iba obalenie nevhodného súboru do XML
API
- ide o prístup ku aplikácii spravujúcej bázy údajov o datasete
- minimálne požiadavky:
- odporúčané formáty: ako vyššie (vo formátoch súborov) ale navyše aj vo formáte RDF (Turtle, RDF/XML, ...) cez SPARQL endpoint
Prípustné nie sú:
- nekonzistentné či neúplné dáta
- nekonzistentné či neúplné API (ak napríklad obsahuje funkciu "getItem()" ale neobsahuje "listItems()")
- nekonzistentná či neúplná dokumentácia k API
- nevysvetlené a neohlásené výpadky funkčnosti API
Časť 3: Štruktúra údajov
Štruktúra údajov pre dátový zdroj:
- dátum, ku ktorému sú údaje platné, alebo informácia, že ide o aktuálne údaje v čase prístupu
- odporúčané: dátum najbližšej aktualizácie (pokiaľ nejde o sprístupnenie vždy aktuálnych údajov)
- sprístupnenie doplňujúcich informácií, ktoré majú napomôcť automatizovanému spracovaniu údajov dátového zdroja:
- schémy údajov - pokiaľ schéma údajov (t.j. členenie dátového zdroja na typy údajov, konkrétne záznamy a vzťahy medzi týmito entitami) nie je triviálna
- popis typov položiek - najmä v prípade, ak sú používané netypické dátové typy, číselníkové typy, skratky, zložené dátové typy a pod.
- popis formátov v ktorých je dátový zdroj sprístupňovaný - napr. formáty súborov
- popis možných nepravidelností v štruktúre
V prípade, že je správcovi údajov známe, že niektoré údaje sú neaktuálne, nesprávne, alebo neúplné, tieto údaje musia byť označené spôsobom umožňujúcim automatizovane ich odlíšiť od aktuálnych, správnych, alebo úplných údajov (o.i. to znamená, že prítomnosť takýchto údajov nie je sama osebe dôvodom na nesprístupnenie dátového zdroja).
Jednotlivé položky údajov ukladať spôsobom:
- umožňujúcim ich lokalizáciu (najmä odlíšenie od iných položiek) v rámci dátového zdroja
- čítanie automatizovaným spôsobom
- rovnakým spôsobom pre všetky dátové vety v určitom dátovom zdroji (dátová veta je množina súvisiacich položiek opisujúcich určitý objekt)
Prípustné nie sú:
- formáty určené na čítanie pre používateľa, ktoré neumožňujú automatizované spracúvanie údajov (napr. web aplikácia)
- nepravidelný formát dátovej vety
- nemožnosť izolovať z dátovej vety/súboru konkrétne položky
Časť 4: prístup k údajom
Údaje sa sprístupňujú prostredníctvom sieťovej infraštruktúry ( §3 ods.2 písm. j) zákona), v sieti Internet.
Dátový zdroj musí mať určitú lokáciu, ktorá je stabilná:
- vyjadrená pomocou URL (resp. iného konkrétneho identifikátora, ak ide o prístup iným protokolom)
- zmena lokácie nastáva iba vo výnimočnom prípade, napr. pri zmene formátu údajov, nasadzovaní nového webového sídla
Prístupu sa venujú štandardy pre prepojenie, najmä §3, §4, §5 výnosu a štandardy pre prístup k elektronickým službám, najmä §9 výnosu a štandardy pre webové služby, §11 výnosu.
Server musí vyhodnocovať požiadavky na prístup bezstavovo, t.j. požiadavka je vyhodnotená bez ohľadu na spracovanie predchádzajúcich požiadaviek. Prípustné sú aj viaceré "pohľady" na údaje. Pod pohľadom rozumieme spoločne prezentovanú časť dátového zdroja, spravidla ide o na dátovom zdroji vykonanú reštrikciu (filter) určitých položiek, objektov, alebo vzťahov medzi objektmi - napr. ak z dôvodu ochrany osobných údajov nie je možné sprístupniť celý dátový zdroj, je prezentácia rôznych pohľadov žiadanou alternatívou.
Prípustné nie sú:
- "roztrúsené" umiestnenie údajov - napr. potreba preklikávania "stránok", parsovanie údajov zo stránok
- prvky určené na ovládanie používateľom - napr. tlačítka, grafické prvky
- požadovaná identifikácia, autentifikácia, či iná práca s používateľom
(TODO: čosi na tému:
- redirecty: HTTP 301 a 302 - dôležité pre vyššie spomenutú "stabilnú lokáciu"
- range requesty - dôležité napr. pre download veľkých CSV, v ktorých sa len dopĺňajú nové údaje na koniec súboru, kedy možno preskočiť začiatok súboru, ktorá bola stiahnutá uz skôr
- caching: HTTP hlavicky Cache-Control, Expires, ... v odpovedi, If-Modified-Since v poziadavke, atď. aby sa efektívnejšie využil webserver, na ktorom sa dataset publikuje
)
TODO
Po sfinalizovani premiestnit dokument do Liferay portalu, do sekcie komunity Open Data.
4 Comments
Nudzik Ivan
http://www.vlada.cz/assets/ppov/boj-s-korupci/otevrene-vladnuti/aktuality/Metodika-publikace-otevrenych-dat.pdf
Suchal Jano
Zdravim, neviem nakolko to tu je aktualne, ale skusim to tu ozivit.
Presiel som ten aktualny navrh a tu su nejake postrehy, ktore vychadzaju z realizacie mojich projektov nad verejnymi databazami:
Tazko sa tato wiki sleduje, je to tu velmi roztrusene a neviem co je este zive a co nie.
Hanečák Peter
Kedze s tymto zapasime uz dlhsie, dovolil som si spisat, aky mame stav: Open Data specifikacia - stav k marcu 2013 (je to zial/nastastie "uzavrete" pre komunitu, kedze z objektivnych aj subjektivnych dovodov sme zatial nedosiahli uroven otvorenosti LKML, kde si v pohode verejne vynadaju a stale je to konstruktivne ).
Zakladna poznamka je asi taka, ze na zaciatok chceme cosi rychlo, lacno a "good enough". Aby aspon prva sada datasetov sla von v "good enough" kvalite, lebo zatial je to bieda. Nasledne by sme v iteraciach doplnali, upresnovali, ... na zaklade coho sa vylepsia uz vypustene datasety a zverejnia dalsie nove. A popri tom stale davat pozor, aby sme neziadali privela, na com by to mohlo zakapat.
K jednotlivym bodom:
Gabriel Lachmann
Dik za pripomienky. Vacsinu som sa pokúcil zapracovat do návrhu pre pracovnú skupinu PS 3. V pondelok by sa mala prediskutovat prvá verzia. Dokument ako taký nepôjde do výnosu. Pojde tam len posledná kapitola Návrh zmien textácií vo výnose a metodickom pokyne, ktorá ale vypadne ako dorivát celého dokumentu.