Zdroje informácií
Zdroje:
- Metodický pokyn k výnosu Ministerstva financií Slovenskej republiky z 8. septembra 2008 č. MF/013261/2008-132 o štandardoch pre informačné systémy verejnej správy
- VÝNOS Ministerstva financií Slovenskej republiky z 9. júna 2010o štandardoch pre informačné systémy verejnej správy
- Návrh technickej špecifikácie štandardov pre Datasety v SR
- OASIS Metodika OpenData 1.0
W3C Government Linked Data (GLD) Working Group
Terminológia
Tu má byť výkladový slovník.
Treba uviesť všetky termíny, ktoré sú v oblasti OpenData používané. Termíny a ich vysvetlenie má byť také, aby bolo "legislatívne" použiteľné. Viac info viď. INFORMATIZÁCIA - Terminológia , v podstate to má zapadnúť sem: Metodický pokyn na použitie odborných výrazov pre oblasť IS (aka "Glosár") .
K termínom môžu byť zaujímavé tieto dokumenty:
- http://data.gov.uk/opendataconsultation/glossary-of-key-terms - páči sa mi britská stručnosť
- http://opendatahandbook.org/en/glossary.html
význam farieb v tabuľke nižšie |
---|
prijateľný termín |
návrh prijateľného termínu |
treba riešiť |
Termín | EN ekvivalent | Význam/výklad | poznámky |
---|---|---|---|
otvorené dáta | OpenData | draft: preklad Open Definition: "Údaj alebo obsah je otvorený ak je komukoľvek dovolený prístup, použitie a opätovné publikovanie tohto údaju. Jediným prípadným obmedzením môže byť len požiadavka spolu s údajom zverejniť aj jeho zdroj alebo požiadavka poskytnúť pre opätovne publikovaný údaj rovnaké podmienky použitia aké boli poskytnuté pri pôvodnom zdroji." | Je to "skoro" to iste ako "zverejnená informácia", len teda v definícii "zverejnenej informácie" chýba hlavne explicitne vyjadrenie, či a ako možno túto informáciu opätovne publikovať. A teda pojmy nie sú totožné. |
dátový zdroj | dataset | Databáza publikovaná alebo spravovaná jedným gestorom (prevádzkovateľom, organizáciou, ... - TODO: vybrať jeden najvhodnejší termín) poskytovaná spolu metadátami a prípadne aj dokumentáciou potrebnou na znovupoužitie údajov iným subjektom (popis dátových entít, spôsob získavania údajov, spôsob úpravy údajov po ich získaní ale pred ich zverejnením, a pod.). | Z http://blog.ldodds.com/2013/02/09/what-is-a-dataset/ čerpám tieto vybrané definície od W3C, ku ktorým by som sa priklonil:
|
databáza; databáza údajov | Súbor dátových objektov v elektronickej forme uložených ISO 690-2-2000:3.5 | toto už dnes je definované v Glosári zjavne je to podobná definícia ako to čo potrebujeme pre "Dataset", ale "nie je to úplne ono": dôležitý rozdiel sú metadáta a dokumentácia | |
katalóg dátových zdrojov | Data Catalogs ? | ||
prepojené dáta | Linked Data | Dátový zdroj ktorý umožňuje prepojenie svojich dátových objektov s dátovými objektami z iného dátového zroja. Metóda prepojenia musí byť použiteľná aj pre strojové spracovanie. Užitočnosť dvoch prepojených dátových zdrojov je väčšia, ako užitočnosť dátových zdrojov izolovane osve. | |
prepojené otvorené dáta | Linked Open Data (LOD) | Prepojené dáta, ktoré sú zároveň aj otvorené dáta. | |
aplikačné rozhranie | API | ||
automatizovane/strojovo spracovateľné údaje | Machine-readable (data) | ||
kvalita dátového zdroja | |||
raw data | |||
dáta; údaje | Reprezentácia informácií formalizovaným spôsobom vhodným na komunikáciu, interpretáciu a spracovanie. | toto už dnes je definované v Glosári | |
metadáta; metaúdaje | Štruktúrované údaje, ktoré obsahujú informácie o primárnych (iných) údajoch. IKT KTD „Informácie opisujúce súbory priestorových údajov a služby priestorových údajov, ktoré umožňujú ich zisťovanie, katalogizáciu a využívanie.“ egov Smernica 2007/2/ES Pozn.: Pojem sa používa najmä v súvislosti s elektronickými zdrojmi a vzťahuje sa k údajom, ako sú dátové súbory, textové informácie, obrazové informácie, hudba a pod. Funkcia metadát je popisná, selekčná a archivačná. V súvislosti s týmito funkciami sa rozlišujú metadáta na účely popisu, správy, právnych nárokov, technické funkčnosti, používanie a archiváciu. Údaje možno vkladať aj priamo do zdroja, napr. do záhlavia dokumentu HTML. | toto už dnes je definované v Glosári | |
metainformácia | Informácia, ktorá je v transformačnom vzťahu k inej informácii. Je nástrojom popisu súvisiacej informácie. Slúži ako prostriedok na získanie obsahu popisovanej informácie vo vyhľadávacích systémoch. | toto už dnes je definované v Glosári | |
dátová / údajová entita | Typ dátového objektu (napr. fyzická osoba, právnická osoba, nehnuteľnosť atď.) spolu s informáciami charakterizujúcimi tento objekt. | toto už dnes je definované v Glosári | |
dátový / údajový objekt | Jednotlivý údaj, vzájomne súvisiaca skupina údajov, nezávislé diela alebo materiály v elektronickej forme. | toto už dnes je definované v Glosári | |
dátový prvok | Jednotka údajov, ktorá je jednoznačne a nedeliteľne špecifikovaná prostredníctvom súboru atribútov t.j. vlastností dátových objektov alebo údajových entít. | toto už dnes je definované v Glosári | |
hodnota dátového prvku | Obsah dátového prvku vyjadrený kódom, číslicou alebo slovným popisom, ktorý sa vzťahuje k popisu a zobrazeniu dátového prvku. | toto už dnes je definované v Glosári | |
sémantická interoperabilita | Postupy na zabezpečenie, aby akákoľvek aplikácia, ktorá sa pôvodne vyvinula na iný účel, presne porozumela významu vymieňaných informácií. Umožňuje systémom kombinovať získané informácie s inými informačnými zdrojmi a zmysluplne ich spracúvať. | toto už dnes je definované v Glosári | |
technická interoperabilita | Postupy, ktoré zahŕňajú technické záležitosti prepájania počítačových systémov a služieb. Zahŕňa kľúčové aspekty, ako sú otvorené rozhrania, služby prepájania, integráciu údajov, middleware, prezentáciu a výmenu údajov, prístupnosť a služby zabezpečenia. | toto už dnes je definované v Glosári | |
konverzia dát | Zmena spôsobu zápisu dát pomocou niektorého z konverzných programov. Kódy jednotlivých znakov sú prevedené podľa daných konverzných tabuliek. Význam údajov zostáva zachovaný. | toto už dnes je definované v Glosári | |
zverejnená informácia | Informácia, ktorú môže každý opakovane vyhľadávať a získavať, najmä informácia publikovaná v tlači alebo vydaná na inom hmotnom nosiči dát umožňujúcom zápis a uchovanie informácie, alebo vystavená na úradnej tabuli s možnosťou voľného prístupu, alebo sprístupnená pomocou zariadenia umožňujúceho hromadný prístup, alebo umiestnená vo verejnej knižnici. | toto už dnes je definované v Glosári | |
identifikátor | Identifikačný údaj, ktorý zabezpečuje jednoznačnosť dátovej entity alebo subjektu v informačných systémoch. | toto už dnes je definované v Glosári | |
identita | Pozri totožnosť. (tam sa píše iba o totožnosti osoby) | toto už dnes je definované v Glosári Ale zjavne budeme chcieť to predefinovať! | |
číselník | Zoznam prípustných hodnôt údajového prvku obvykle vo forme dvojíc kódovaného údaja a hodnoty jeho kódu. | toto už dnes je definované v Glosári | |
centrálny číselník | Centrálne, prostredníctvom informačného systému verejnej správy, vedený číselník. | toto už dnes je definované v Glosári | |
CSV | Formát určený pre výmenu údajov medzi tabuľkovými kalkulátormi. | toto už dnes je definované v Glosári Ale zjavne budeme chcieť to predefinovať! | |
formát dát | Vnútorná štruktúra dát, s ktorou pracuje príslušná aplikácia a v ktorej sú dáta ukladané na pamäťové médium a načítané do operačnej pamäti. | toto už dnes je definované v Glosári | |
otvorený štandard | Otvorený štandard je taká technická špecifikácia, ktorá je (1) prijatá a udržovaná neziskovou organizáciou alebo konzorciom, (2) jej ďalší vývoj a modifikácie vychádzajú z otvoreného rozhodovacieho procesu, prístupného všetkým záujemcom, na základe zhody alebo rozhodovania väčšinovým hlasovaním, (3) je zverejnená a príslušné dokumenty sú prístupné buď volne, aleboza nominálny poplatok a (4) prípadné súvisiace duševné Metodický pokyn na použitie odborných výrazov pre oblasťIS 35 vlastníctvo – patenty – sú neodvolateľne bezplatne sprístupnené pre všetkých rovnako. | toto už dnes je definované v Glosári | |
Sprístupňované dáta
Všetky dáta ktoré je možné sprístupniť ako otvorené dáta by mali byť zverejňované ako otvorené dáta.
Sprístupňovanie strojovo spracovateľných dát
Dáta verejnej správy by mali byť sprístupňované ako:
- úplné - dáta sú zverejnené v maximálnom možnom rozsahu. Rozsah môže byť definovaný právnym predpisom, uznesením vlády, alebo poskytovateľom dát,
- jednoducho dostupné - dáta sú dostupné na internete,
- strojovo spracovateľné,
- v štandardizovanom formáte - použité štandardy musia mať voľne dostupnú špecifikáciu,
- musia byť sprístupnené s jasne definovanými licenčnými podmienkami a minimom obmedzení,
- dostupné používateľom pri vynaložení minima možných nákladov na ich získanie,
- primárne - dáta ktoré sú sprístupňované sú zverejňované aj v primárnej podobe, v akej boli vytvorené. Za primárne dáta sa považujú aj:
- referenčné údaje zo základných registrov,
- dáta z registrov,
- agregované, prípadne anonymizované dáta, ak nie je možné sprístupniť zdrojové dáta,
- agregované dáta, ak je uvedený spôsob agregácie a odkaz na sprístupnené primárne dáta agregácie,
- zverejnené bez zbytočného odkladu,
- neobmedzujúce prístup - dáta sú dostupné spôsobom, ktorý nediskriminuje jednotlivcov, alebo skupiny osôb,
- stále dostupné - dáta sú dostupné on-line po dobu uvedenú ich poskytovateľom.
Vychádzajúc z koncepcie Sunlight Foundation pre otvorené dáta, sú dáta verejnej správy otvorené, ak spĺňajú aspoň body 1-6.
Dáta sú vždy súčasťou určitého dátového zdroja (datasetu).
Datasety
Spôsoby sprístupnia
- dáta sprístupnené ako jeden celok v jednom, alebo v skupine súborov s údajmi - ide o pasívny spôsob prístupu, kde server sprístupní "naraz" celý blok údajov (súbor/súbory) v definovanom formáte,
- dáta obsahujúce prírastky v definovaných časových intervaloch popísaných v metadátach dátového zdroja,
- prístup cez aplikačné rozhranie (API) - ide o aktívny prístup, kde používateľ, alebo aplikácia zadávajú serveru dopyty na konkrétne požadovaná údaje, ktoré server po spracovaní dopytu vyhľadá a odošle v štandardizovanom formáte.
Zverejnené strojovo spracovateľné dáta musia byť zverejnené aj v príslušnom dátovom katalógu spolu s príslušnými metadátami.
Sprístupnenie strojovo spracovateľných dát
Údaje sa sprístupňujú prostredníctvom sieťovej infraštruktúry ( §3 ods.2 písm. j) zákona), v sieti Internet.
Dátový zdroj musí mať určitú lokáciu, ktorá je stabilná:
- vyjadrená pomocou URL (resp. iného konkrétneho identifikátora, ak ide o prístup iným protokolom)
- zmena lokácie nastáva iba vo výnimočnom prípade, napr. pri zmene formátu údajov, nasadzovaní nového webového sídla
Prístupu sa venujú štandardy pre prepojenie, najmä §3, §4, §5 výnosu a štandardy pre prístup k elektronickým službám, najmä §9 výnosu a štandardy pre webové služby, §11 výnosu.
Server musí vyhodnocovať požiadavky na prístup bezstavovo, t.j. požiadavka je vyhodnotená bez ohľadu na spracovanie predchádzajúcich požiadaviek. Prípustné sú aj viaceré "pohľady" na údaje. Pod pohľadom rozumieme spoločne prezentovanú časť dátového zdroja, spravidla ide o na dátovom zdroji vykonanú reštrikciu (filter) určitých položiek, objektov, alebo vzťahov medzi objektmi - napr. ak z dôvodu ochrany osobných údajov nie je možné sprístupniť celý dátový zdroj, je prezentácia rôznych pohľadov žiadanou alternatívou.
Prípustné nie sú
- "roztrúsené" umiestnenie údajov - napr. potreba preklikávania "stránok", parsovanie údajov zo stránok
- prvky určené na ovládanie používateľom - napr. tlačítka, grafické prvky
- požadovaná identifikácia, autentifikácia, či iná práca s používateľom
Dátové katalógy
Centrálny katalóg by mal mať základnú funkcionalitu pre poskytovateľov dát, nevyhnutnú pre pokrytie procesu registrácie nového dátového zdroja, následnú aktualizáciu informácií a prípadné odstránenie informácií o dátovom zdroji.
Centrálny katalóg by mal mať možnosť agregovať informácie z dátových katalógov na nižšej úrovni a poskytovať informácie o svojom obsahu pre ostatné katalógy a systémy.
Problematika katalógov je podrobne rozpracovaná oblasti archívnictva. Odporúčaný štandard pre poskytovanie údajov o katalógu a agregácie údajov z iných katalógov je Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH), prípadne nový štandard Data Catalog Vocabulary (DCAT) z dielne W3C a EU projektu open-data.europa.eu.
Metadáta - informácie popisujúce dátový zdroj
Minimálna štruktúra údajov popisujúca dátový zdroj
- názov dátového zdroja,
- dátum, kedy bol dátový zdroj prvý krát zverejnený,
- dátum, kedy bola aktuálna verzia dátového zdroja zverejnená,
- dátum, ku ktorému sú údaje platné, alebo informácia, že ide o aktuálne údaje v čase prístupu,
- odporúčané: dátum najbližšej aktualizácie (pokiaľ nejde o sprístupnenie vždy aktuálnych údajov),
- jednoznačný identifikátor (IČO) pri subjektoch, ktoré ho majú,
- jednoznačné URL sprístupneného dátového zdroja,
- typ licencie,
- sprístupnenie doplňujúcich informácií, ktoré majú napomôcť automatizovanému spracovaniu údajov dátového zdroja:
- schémy údajov - pokiaľ schéma údajov (t.j. členenie dátového zdroja na typy údajov, konkrétne záznamy a vzťahy medzi týmito entitami) nie je triviálna
- popis typov položiek - najmä v prípade, ak sú používané netypické dátové typy, číselníkové typy, skratky, zložené dátové typy a pod.
- popis formátov v ktorých je dátový zdroj sprístupňovaný - napr. formáty súborov
- popis možných nepravidelností v štruktúre
V prípade, že je správcovi údajov známe, že niektoré údaje sú neaktuálne, nesprávne, alebo neúplné, tieto údaje musia byť označené spôsobom umožňujúcim automatizovane ich odlíšiť od aktuálnych, správnych, alebo úplných údajov (o.i. to znamená, že prítomnosť takýchto údajov nie je sama osebe dôvodom na nesprístupnenie dátového zdroja).
Jednotlivé položky údajov ukladať spôsobom:
- umožňujúcim ich lokalizáciu (najmä odlíšenie od iných položiek) v rámci dátového zdroja
- čítanie automatizovaným spôsobom
- rovnakým spôsobom pre všetky dátové vety v určitom dátovom zdroji (dátová veta je množina súvisiacich položiek opisujúcich určitý objekt)
Prípustné nie sú
- formáty určené na čítanie pre používateľa, ktoré neumožňujú automatizované spracúvanie údajov (napr. web aplikácia)
- nepravidelný formát dátovej vety
- nemožnosť izolovať z dátovej vety/súboru konkrétne položky
Kvalita datasetov
Metodika hodnotenia kvality datasetov je odvodené z W3C metodiky 5 Stars (5 hviezdičiek).
Hodnotenie datasetov vychádza z predpokladov ako:
strojová spracovateľnosť dátového zroja,poskytovanie štrukturovanej informácie,licenčná otvorenosť a nezávislosť od konkrétnej sw aplikácie,štandardizovaný prostriedok na popis štruktúry dátového zdroja - schéma a prípadne sémantika,prepojiteľnosť obsahu dátového zdroja s inými dátovými zdrojmi.
Dátový zdroj:
Príklady:
http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/Gov 2.0 Expo 2010: Tim Berners-Lee, "Open, Linked Data for a Global Community"
Viac informácií na:
(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)
Formáty pre zverejňovanie
Používané formáty
| ||||||
---|---|---|---|---|---|---|
Odporučené formáty pre poskytovanie prepojiteľných strojovo spracovateľných dát
V súčasnej dobe sa začína uplatňovať technológia linkovaných/prepojiteľných dát ( linked data) využívajúca RDF formát.
RDF - Resource Description Framework
Umožňuje zápis grafových (sieťových) dát. Umožňuje zachytiť ľubovolné štrukturované dáta v strojovo spracovateľnej podobe. Ponúka štandardizovaný spôsob zápisu štruktúry a sémantiky dát. Je založený na známych princípoch webu umožňujúcich prepájanie súvisiacich dát z rôznych zdrojov.
RDF rozširuje linkovanie webových objektov definovaných jednoznačnými URI pridaním relácií medzi objektmi. Jednoznačná relácia dvoch objektov (dve jednoznačné URL linky popisujúce objekty) je definovaná treťou jednoznačnou URL linkou popisujúcou samotnú reláciu. Takýto vzťah nazývame "triple". (viac info napr. http://en.wikipedia.org/wiki/Resource_Description_Framework) Pomocou tohto modelu je možné spájať štrukturované a čiastočne štrukturované dáta, definovať medzi nimi vzťahy a zdieľať ich pre rôzne aplikácie.
Ide o základný prvok tzv. Prepojiteľných strojovo spracovateľných dát (Linked Data) štandardizovaný na úrovni W3C.
Aktuálne špecifikácie štandardov W3C.
(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)
Prípustné nie sú
- tabuľky vyjadrené v textovom súbore
- proprietárne formáty tabuľkových súborov - napr. XLS
- súbory obsahujúce aktívne prvky tabuliek (napr. makrá, vzorce)
- iba obalenie nevhodného súboru do XML
(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)
Prepojiteľné dáta - Linked Data
TO DO
Treba prebehnúť a zapracovať návrh z PS1 pre štandardy prepojiteľných dát.
Z dôvodu stále narastajúceho objemu strojovo spracovateľných dát z rôznych zdrojov je nutné hľadať formy vzájomnej prepjiteľnosti dát. Riešením je poskytovanie vzájomne prepojiteľných dát (Linked Data).
Dáta je vhodné publikovať tak, aby prepojiteľnosť umožňovali. Prepojiteľnosť je možné charakterizovať nasledujúcimi technologickými princípmi:
Konkrétne a abstraktné objekty majú priradené jednoznačné URI ako jednoznačné identifikátory.Používajú sa iba HTTP URI tak, aby webové prehliadače a aplikácie mohli k URI pristupovať a získať informácie o príslušnom objekte.Konkrétne HTTP URI daného objektu poskytuje dáta o objekte v strojovo spracovateľnej forme vo formáte RDF - Resource Description Framework.Dáta o objekte obsahujú prepojenie na iné objekty znovu pomocou jednoznačných HTTP URI.
Odporúčané formáty pre prepojiteľné dáta
| ||||||
---|---|---|---|---|---|---|
Prípustné nie sú
- nekonzistentné či neúplné dáta
(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)
API pre strojovo spracovateľné a prepojiteľné dáta
- ide o prístup ku aplikácii spravujúcej bázy údajov o datasete
- minimálne požiadavky:
- odporúčané formáty: ako vyššie (v časti "Formáty pre zverejňovanie") ale navyše aj vo formáte RDF (Turtle, RDF/XML, ...) cez SPARQL endpoint
- odporúčaný formát pre dátové katalógy a archívy OAI-PMH alebo Data Catalog Vocabulary (DCAT)
Formát | Nezávislosť na aplikácii | Zápis v štrukturovanej podobe | Popis štruktúry dát | Popis sémantiky dát | Prepojiteľnosť, linkovanie | Kvalita* |
---|---|---|---|---|---|---|
OData | Áno | Áno | Áno | Čiastočne | Čiastočne | ★★★★ |
RDF/SPARQL endpoint | Áno | Áno | Áno | Áno | Áno | ★★★★★ |
Prípustné nie sú
- nekonzistentné či neúplné dáta
- nekonzistentné či neúplné API (ak napríklad obsahuje funkciu "getItem()" ale neobsahuje "listItems()")
- nekonzistentná či neúplná dokumentácia k API
- nevysvetlené a neohlásené výpadky funkčnosti API
Relevantné časti výnosu
§ 11 Middleware protokoly sieťovej komunikácie
Štandardom pre middleware protokoly sieťovej komunikácie je používanie
a) protokolu Simple Object Access Protocol (SOAP) minimálne vo verzii 1.2 pri komunikácii medzi servermi v rámci jednej správy a komunikácii medzi klientom a serverom,
b) webových služieb na prístup klientskych aplikácií prostredníctvom internetu na serverové aplikácie správy,
c) protokolu Hypertext Transfer Protocol (HTTP) na poskytnutie vrstvy webovej služby pre existujúcu serverovú aplikáciu a komunikáciu na aplikačnej úrovni,
d) jazyka Web Services Description Language (WSDL) na definíciu webovej služby,
e) registra Universal Description, Discovery and Integration (UDDI) minimálne vo verzii 1.0 na komunikáciu medzi klientom a serverom,
f) špecifikácií pre mapové služby pod
1. OpenGIS WebMap Service (WMS),
2. OpenGIS Web Feature Service (WFS),
3. OpenGIS Web Coverage Service (WCS),
4. OpenGIS Web Processing Service (WPS),
5. OpenGIS Catalog Service for Web (CSW).
§ 12 Popisný jazyk pre dátové prvky
Štandardom pre popisný jazyk pre dátové prvky je používanie jazyka Extensible Markup Language (XML) podľa World Wide Web Consortium (W3C) pre dátové prvky pri vstupe na rozhranie informačného systému verejnej správy.
§ 13 Prenos dátových prvkov
Štandardom pre prenos dátových prvkov je používanie
a) jazyka schém XML Schema Definition (XSD) minimálne vo verzii 1.0 na výmenu dátových prvkov medzi všetkými informačnými systémami verejnej správy nezávisle od účelu správy,
b) formátu Extensible Markup Language (.xml) vo verzii 1.0 podľa Word Wide Web (W3C) pri výmene dátových prvkov,
c) špecifikácie znakovej sady Unicode Transformation Format (UTF), a to 8-bitové kódovanie UTF-8 pre integráciu údajov,
d) transformačného jazyka XSL Transformations (XSLT) podľa World Wide Web Consortium (W3C) pri transformácii dátových prvkov,
e) modelovacieho jazyka Geography Markup Language (GML) pri výmene priestorových údajov.