Zdroje informácií
Zdroje:
- Metodický pokyn k výnosu Ministerstva financií Slovenskej republiky z 8. septembra 2008 č. MF/013261/2008-132 o štandardoch pre informačné systémy verejnej správy
- VÝNOS Ministerstva financií Slovenskej republiky z 9. júna 2010o štandardoch pre informačné systémy verejnej správy
- Návrh technickej špecifikácie štandardov pre Datasety v SR
- OASIS Metodika OpenData 1.0
W3C Government Linked Data (GLD) Working Group
Sprístupňované dáta
Všetky dáta ktoré je možné sprístupniť ako otvorené dáta by mali byť zverejňované ako otvorené dáta.
Sprístupňovanie strojovo spracovateľných dát
Dáta verejnej správy by mali byť sprístupňované ako:
- úplné - dáta sú zverejnené v maximálnom možnom rozsahu. Rozsah môže byť definovaný právnym predpisom, uznesením vlády, alebo poskytovateľom dát,
- jednoducho dostupné - dáta sú dostupné na internete,
- strojovo spracovateľné,
- v štandardizovanom formáte - použité štandardy musia mať voľne dostupnú špecifikáciu,
- musia byť sprístupnené s jasne definovanými licenčnými podmienkami a minimom obmedzení,
- dostupné používateľom pri vynaložení minima možných nákladov na ich získanie,
- primárne - dáta ktoré sú sprístupňované sú zverejňované aj v primárnej podobe, v akej boli vytvorené. Za primárne dáta sa považujú aj:
- referenčné údaje zo základných registrov,
- dáta z registrov,
- agregované, prípadne anonymizované dáta, ak nie je možné sprístupniť zdrojové dáta,
- agregované dáta, ak je uvedený spôsob agregácie a odkaz na sprístupnené primárne dáta agregácie,
- zverejnené bez zbytočného odkladu,
- neobmedzujúce prístup - dáta sú dostupné spôsobom, ktorý nediskriminuje jednotlivcov, alebo skupiny osôb,
- stále dostupné - dáta sú dostupné on-line po dobu uvedenú ich poskytovateľom.
Vychádzajúc z koncepcie Sunlight Foundation pre otvorené dáta, sú dáta verejnej správy otvorené, ak spĺňajú aspoň body 1-6.
Dáta sú vždy súčasťou určitého dátového zdroja (datasetu).
Datasety
Spôsoby sprístupnia
- dáta sprístupnené ako jeden celok v jednom, alebo v skupine súborov s údajmi - ide o pasívny spôsob prístupu, kde server sprístupní "naraz" celý blok údajov (súbor/súbory) v definovanom formáte,
- dáta obsahujúce prírastky v definovaných časových intervaloch popísaných v metadátach dátového zdroja,
- prístup cez aplikačné rozhranie (API) - ide o aktívny prístup, kde používateľ, alebo aplikácia zadávajú serveru dopyty na konkrétne požadovaná údaje, ktoré server po spracovaní dopytu vyhľadá a odošle v štandardizovanom formáte.
Zverejnené strojovo spracovateľné dáta musia byť zverejnené aj v príslušnom dátovom katalógu spolu s príslušnými metadátami.
Sprístupnenie strojovo spracovateľných dát
Údaje sa sprístupňujú prostredníctvom sieťovej infraštruktúry ( §3 ods.2 písm. j) zákona), v sieti Internet.
Dátový zdroj musí mať určitú lokáciu, ktorá je stabilná:
- vyjadrená pomocou URL (resp. iného konkrétneho identifikátora, ak ide o prístup iným protokolom)
- zmena lokácie nastáva iba vo výnimočnom prípade, napr. pri zmene formátu údajov, nasadzovaní nového webového sídla
Prístupu sa venujú štandardy pre prepojenie, najmä §3, §4, §5 výnosu a štandardy pre prístup k elektronickým službám, najmä §9 výnosu a štandardy pre webové služby, §11 výnosu.
Server musí vyhodnocovať požiadavky na prístup bezstavovo, t.j. požiadavka je vyhodnotená bez ohľadu na spracovanie predchádzajúcich požiadaviek. Prípustné sú aj viaceré "pohľady" na údaje. Pod pohľadom rozumieme spoločne prezentovanú časť dátového zdroja, spravidla ide o na dátovom zdroji vykonanú reštrikciu (filter) určitých položiek, objektov, alebo vzťahov medzi objektmi - napr. ak z dôvodu ochrany osobných údajov nie je možné sprístupniť celý dátový zdroj, je prezentácia rôznych pohľadov žiadanou alternatívou.
Prípustné nie sú
- "roztrúsené" umiestnenie údajov - napr. potreba preklikávania "stránok", parsovanie údajov zo stránok
- prvky určené na ovládanie používateľom - napr. tlačítka, grafické prvky
- požadovaná identifikácia, autentifikácia, či iná práca s používateľom
Dátové katalógy
Centrálny katalóg by mal mať základnú funkcionalitu pre poskytovateľov dát, nevyhnutnú pre pokrytie procesu registrácie nového dátového zdroja, následnú aktualizáciu informácií a prípadné odstránenie informácií o dátovom zdroji.
Centrálny katalóg by mal mať možnosť agregovať informácie z dátových katalógov na nižšej úrovni a poskytovať informácie o svojom obsahu pre ostatné katalógy a systémy.
Problematika katalógov je podrobne rozpracovaná oblasti archívnictva. Odporúčaný štandard pre poskytovanie údajov o katalógu a agregácie údajov z iných katalógov je Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH), prípadne nový štandard Data Catalog Vocabulary (DCAT) z dielne W3C a EU projektu open-data.europa.eu.
Metadáta - informácie popisujúce dátový zdroj
Minimálna štruktúra údajov popisujúca dátový zdroj
- názov dátového zdroja,
- dátum, kedy bol dátový zdroj prvý krát zverejnený,
- dátum, kedy bola aktuálna verzia dátového zdroja zverejnená,
- dátum, ku ktorému sú údaje platné, alebo informácia, že ide o aktuálne údaje v čase prístupu,
- odporúčané: dátum najbližšej aktualizácie (pokiaľ nejde o sprístupnenie vždy aktuálnych údajov),
- jednoznačný identifikátor (IČO) pri subjektoch, ktoré ho majú,
- jednoznačné URL sprístupneného dátového zdroja,
- typ licencie,
- sprístupnenie doplňujúcich informácií, ktoré majú napomôcť automatizovanému spracovaniu údajov dátového zdroja:
- schémy údajov - pokiaľ schéma údajov (t.j. členenie dátového zdroja na typy údajov, konkrétne záznamy a vzťahy medzi týmito entitami) nie je triviálna
- popis typov položiek - najmä v prípade, ak sú používané netypické dátové typy, číselníkové typy, skratky, zložené dátové typy a pod.
- popis formátov v ktorých je dátový zdroj sprístupňovaný - napr. formáty súborov
- popis možných nepravidelností v štruktúre
V prípade, že je správcovi údajov známe, že niektoré údaje sú neaktuálne, nesprávne, alebo neúplné, tieto údaje musia byť označené spôsobom umožňujúcim automatizovane ich odlíšiť od aktuálnych, správnych, alebo úplných údajov (o.i. to znamená, že prítomnosť takýchto údajov nie je sama osebe dôvodom na nesprístupnenie dátového zdroja).
Jednotlivé položky údajov ukladať spôsobom:
- umožňujúcim ich lokalizáciu (najmä odlíšenie od iných položiek) v rámci dátového zdroja
- čítanie automatizovaným spôsobom
- rovnakým spôsobom pre všetky dátové vety v určitom dátovom zdroji (dátová veta je množina súvisiacich položiek opisujúcich určitý objekt)
Prípustné nie sú
- formáty určené na čítanie pre používateľa, ktoré neumožňujú automatizované spracúvanie údajov (napr. web aplikácia)
- nepravidelný formát dátovej vety
- nemožnosť izolovať z dátovej vety/súboru konkrétne položky
Kvalita datasetov
Metodika hodnotenia kvality datasetov je odvodené z W3C metodiky 5 Stars (5 hviezdičiek).
Hodnotenie datasetov vychádza z predpokladov ako:
strojová spracovateľnosť dátového zroja,poskytovanie štrukturovanej informácie,licenčná otvorenosť a nezávislosť od konkrétnej sw aplikácie,štandardizovaný prostriedok na popis štruktúry dátového zdroja - schéma a prípadne sémantika,prepojiteľnosť obsahu dátového zdroja s inými dátovými zdrojmi.
Dátový zdroj:
Príklady:
http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/Gov 2.0 Expo 2010: Tim Berners-Lee, "Open, Linked Data for a Global Community"
Viac informácií na:
(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)
Formáty pre zverejňovanie
Používané formáty
| ||||||
---|---|---|---|---|---|---|
Odporučené formáty pre poskytovanie prepojiteľných strojovo spracovateľných dát
V súčasnej dobe sa začína uplatňovať technológia linkovaných/prepojiteľných dát ( linked data) využívajúca RDF formát.
RDF - Resource Description Framework
Umožňuje zápis grafových (sieťových) dát. Umožňuje zachytiť ľubovolné štrukturované dáta v strojovo spracovateľnej podobe. Ponúka štandardizovaný spôsob zápisu štruktúry a sémantiky dát. Je založený na známych princípoch webu umožňujúcich prepájanie súvisiacich dát z rôznych zdrojov.
RDF rozširuje linkovanie webových objektov definovaných jednoznačnými URI pridaním relácií medzi objektmi. Jednoznačná relácia dvoch objektov (dve jednoznačné URL linky popisujúce objekty) je definovaná treťou jednoznačnou URL linkou popisujúcou samotnú reláciu. Takýto vzťah nazývame "triple". (viac info napr. http://en.wikipedia.org/wiki/Resource_Description_Framework) Pomocou tohto modelu je možné spájať štrukturované a čiastočne štrukturované dáta, definovať medzi nimi vzťahy a zdieľať ich pre rôzne aplikácie.
Ide o základný prvok tzv. Prepojiteľných strojovo spracovateľných dát (Linked Data) štandardizovaný na úrovni W3C.
Aktuálne špecifikácie štandardov W3C.
(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)
Prípustné nie sú
- tabuľky vyjadrené v textovom súbore
- proprietárne formáty tabuľkových súborov - napr. XLS
- súbory obsahujúce aktívne prvky tabuliek (napr. makrá, vzorce)
- iba obalenie nevhodného súboru do XML
(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)
Prepojiteľné dáta - Linked Data
TO DO
Treba prebehnúť a zapracovať návrh z PS1 pre štandardy prepojiteľných dát.
Z dôvodu stále narastajúceho objemu strojovo spracovateľných dát z rôznych zdrojov je nutné hľadať formy vzájomnej prepjiteľnosti dát. Riešením je poskytovanie vzájomne prepojiteľných dát (Linked Data).
Dáta je vhodné publikovať tak, aby prepojiteľnosť umožňovali. Prepojiteľnosť je možné charakterizovať nasledujúcimi technologickými princípmi:
Konkrétne a abstraktné objekty majú priradené jednoznačné URI ako jednoznačné identifikátory.Používajú sa iba HTTP URI tak, aby webové prehliadače a aplikácie mohli k URI pristupovať a získať informácie o príslušnom objekte.Konkrétne HTTP URI daného objektu poskytuje dáta o objekte v strojovo spracovateľnej forme vo formáte RDF - Resource Description Framework.Dáta o objekte obsahujú prepojenie na iné objekty znovu pomocou jednoznačných HTTP URI.
Odporúčané formáty pre prepojiteľné dáta
| ||||||
---|---|---|---|---|---|---|
Prípustné nie sú
- nekonzistentné či neúplné dáta
(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)
API pre strojovo spracovateľné a prepojiteľné dáta
- ide o prístup ku aplikácii spravujúcej bázy údajov o datasete
- minimálne požiadavky:
- odporúčané formáty: ako vyššie (v časti "Formáty pre zverejňovanie") ale navyše aj vo formáte RDF (Turtle, RDF/XML, ...) cez SPARQL endpoint
- odporúčaný formát pre dátové katalógy a archívy OAI-PMH alebo Data Catalog Vocabulary (DCAT)
Formát | Nezávislosť na aplikácii | Zápis v štrukturovanej podobe | Popis štruktúry dát | Popis sémantiky dát | Prepojiteľnosť, linkovanie | Kvalita* |
---|---|---|---|---|---|---|
OData | Áno | Áno | Áno | Čiastočne | Čiastočne | ★★★★ |
RDF/SPARQL endpoint | Áno | Áno | Áno | Áno | Áno | ★★★★★ |
Prípustné nie sú
- nekonzistentné či neúplné dáta
- nekonzistentné či neúplné API (ak napríklad obsahuje funkciu "getItem()" ale neobsahuje "listItems()")
- nekonzistentná či neúplná dokumentácia k API
- nevysvetlené a neohlásené výpadky funkčnosti API
Relevantné časti výnosu
§ 11 Middleware protokoly sieťovej komunikácie
Štandardom pre middleware protokoly sieťovej komunikácie je používanie
a) protokolu Simple Object Access Protocol (SOAP) minimálne vo verzii 1.2 pri komunikácii medzi servermi v rámci jednej správy a komunikácii medzi klientom a serverom,
b) webových služieb na prístup klientskych aplikácií prostredníctvom internetu na serverové aplikácie správy,
c) protokolu Hypertext Transfer Protocol (HTTP) na poskytnutie vrstvy webovej služby pre existujúcu serverovú aplikáciu a komunikáciu na aplikačnej úrovni,
d) jazyka Web Services Description Language (WSDL) na definíciu webovej služby,
e) registra Universal Description, Discovery and Integration (UDDI) minimálne vo verzii 1.0 na komunikáciu medzi klientom a serverom,
f) špecifikácií pre mapové služby pod
1. OpenGIS WebMap Service (WMS),
2. OpenGIS Web Feature Service (WFS),
3. OpenGIS Web Coverage Service (WCS),
4. OpenGIS Web Processing Service (WPS),
5. OpenGIS Catalog Service for Web (CSW).
§ 12 Popisný jazyk pre dátové prvky
Štandardom pre popisný jazyk pre dátové prvky je používanie jazyka Extensible Markup Language (XML) podľa World Wide Web Consortium (W3C) pre dátové prvky pri vstupe na rozhranie informačného systému verejnej správy.
§ 13 Prenos dátových prvkov
Štandardom pre prenos dátových prvkov je používanie
a) jazyka schém XML Schema Definition (XSD) minimálne vo verzii 1.0 na výmenu dátových prvkov medzi všetkými informačnými systémami verejnej správy nezávisle od účelu správy,
b) formátu Extensible Markup Language (.xml) vo verzii 1.0 podľa Word Wide Web (W3C) pri výmene dátových prvkov,
c) špecifikácie znakovej sady Unicode Transformation Format (UTF), a to 8-bitové kódovanie UTF-8 pre integráciu údajov,
d) transformačného jazyka XSL Transformations (XSLT) podľa World Wide Web Consortium (W3C) pri transformácii dátových prvkov,
e) modelovacieho jazyka Geography Markup Language (GML) pri výmene priestorových údajov.