You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 30 Next »

Zdroje informácií

Sprístupňované dáta

Pod pojmom sprístupňované dáta rozumieme všetky dáta poskytované verejnou správou pre verejné aj interné použitie, vrátane otvorených dát (tzv. OpenData).

Všetky dáta ktoré je možné sprístupniť ako otvorené dáta by mali byť zverejňované ako otvorené dáta.

Sprístupňovanie strojovo spracovateľných dát

Dáta verejnej správy by mali byť sprístupňované ako:

  1. úplné - dáta sú zverejnené v maximálnom možnom rozsahu. Rozsah môže byť definovaný právnym predpisom, uznesením vlády, alebo poskytovateľom dát,
  2. jednoducho dostupné - dáta sú dostupné na internete,
  3. strojovo spracovateľné,
  4. v štandardizovanom formáte - použité štandardy musia mať voľne dostupnú špecifikáciu,
  5. musia byť sprístupnené s jasne definovanými licenčnými podmienkami a minimom obmedzení,
  6. dostupné používateľom pri vynaložení minima možných nákladov na ich získanie,
  7. primárne - dáta ktoré sú sprístupňované sú zverejňované aj v primárnej podobe, v akej boli vytvorené. Za primárne dáta sa považujú aj:
    1. referenčné údaje zo základných registrov,
    2. dáta z registrov,
    3. agregované, prípadne anonymizované dáta, ak nie je možné sprístupniť zdrojové dáta,
    4. agregované dáta, ak je uvedený spôsob agregácie a odkaz na sprístupnené primárne dáta agregácie,
  8. zverejnené bez zbytočného odkladu,
  9. neobmedzujúce prístup - dáta sú dostupné spôsobom, ktorý nediskriminuje jednotlivcov, alebo skupiny osôb,
  10. stále dostupné - dáta sú dostupné on-line po dobu uvedenú ich poskytovateľom.

Vychádzajúc z koncepcie Sunlight Foundation pre otvorené dáta, sú dáta verejnej správy otvorené, ak spĺňajú aspoň body 1-6.

Dáta sú vždy súčasťou určitého dátového zdroja (datasetu).

Datasety

Dataset je ucelená skupina údajov, vytvorená a udržiavaná za určitým účelom. Dátové zdroje verejnej správy sú vytvárané za účelom podpory služieb verejnej správy, služieb vo verejnom záujme alebo verejných služieb. Jednotlivé agendy súvisiace s výkonom verejnej správy môžu obsahovať viaceré dátové zdroje.
Charakteristickým znakom dátového zdroja je jeho samostatná použiteľnosť (výpovedná hodnota) nezávisle od iných dátových zdrojov. Ďalšími znakmi popisujúcimi dátový zdroj sú názov, účel (zameranie), typy spracúvaných údajov a vzťahy medzi nimi, formát údajov a podobne – tzv. metadáta.
S prístupnenie dátového zdroja zabezpečuje jeho správca na základe vlastného rozhodnutia a pomocou vlastných prostriedkov (t.j. na portáli otvorených dát budú uložené len katalógy, nie samotné údaje).

Spôsoby sprístupnia

Rozlišujeme tri základné spôsoby sprístupnenia:
  1. dáta sprístupnené ako jeden celok v jednom, alebo v skupine súborov s údajmi - ide o pasívny spôsob prístupu, kde server sprístupní "naraz" celý blok údajov (súbor/súbory) v definovanom formáte,
  2. dáta obsahujúce prírastky v definovaných časových intervaloch popísaných v metadátach dátového zdroja,
  3. prístup cez aplikačné rozhranie (API) - ide o aktívny prístup, kde používateľ, alebo aplikácia zadávajú serveru dopyty na konkrétne požadovaná údaje, ktoré server po spracovaní dopytu vyhľadá a odošle v štandardizovanom formáte.

Zverejnené strojovo spracovateľné dáta musia byť zverejnené aj v príslušnom dátovom katalógu spolu s príslušnými metadátami.

Sprístupnenie strojovo spracovateľných dát

Údaje sa sprístupňujú prostredníctvom sieťovej infraštruktúry ( §3 ods.2 písm. j) zákona), v sieti Internet.

Dátový zdroj musí mať určitú lokáciu, ktorá je stabilná:

  • vyjadrená pomocou URL (resp. iného konkrétneho identifikátora, ak ide o prístup iným protokolom)
  • zmena lokácie nastáva iba vo výnimočnom prípade, napr. pri zmene formátu údajov, nasadzovaní nového webového sídla

Prístupu sa venujú štandardy pre prepojenie, najmä §3, §4, §5 výnosu a štandardy pre prístup k elektronickým službám, najmä §9 výnosu a štandardy pre webové služby, §11 výnosu.

Server musí vyhodnocovať požiadavky na prístup bezstavovo, t.j. požiadavka je vyhodnotená bez ohľadu na spracovanie predchádzajúcich požiadaviek. Prípustné sú aj viaceré "pohľady" na údaje. Pod pohľadom rozumieme spoločne prezentovanú časť dátového zdroja, spravidla ide o na dátovom zdroji vykonanú reštrikciu (filter) určitých položiek, objektov, alebo vzťahov medzi objektmi - napr. ak z dôvodu ochrany osobných údajov nie je možné sprístupniť celý dátový zdroj, je prezentácia rôznych pohľadov žiadanou alternatívou.

Prípustné nie sú

  • "roztrúsené" umiestnenie údajov - napr. potreba preklikávania "stránok", parsovanie údajov zo stránok
  • prvky určené na ovládanie používateľom - napr. tlačítka, grafické prvky
  • požadovaná identifikácia, autentifikácia, či iná práca s používateľom

Dátové katalógy

Centrálny dátový katalóg je jednotné miesto pre vyhľadávanie sprístupňovaných dát verejnej správy. Dátový katalóg neslúži na ukladanie samotných dát, ale je určený na ukladanie záznamov a metadát popisujúcich dátové zdroje. Na základe týchto údajov sú používatelia Dátového katalógu schopní vyhľadať konkrétny dátový zdroj, jeho umiestnenie (URL) a jeho popis.

Centrálny katalóg by mal mať základnú funkcionalitu pre poskytovateľov dát, nevyhnutnú pre pokrytie procesu registrácie nového dátového zdroja, následnú aktualizáciu informácií a prípadné odstránenie informácií o dátovom zdroji.

Centrálny katalóg by mal mať možnosť agregovať informácie z dátových katalógov na nižšej úrovni a poskytovať informácie o svojom obsahu pre ostatné katalógy a systémy.
Problematika katalógov je podrobne rozpracovaná oblasti archívnictva. Odporúčaný štandard pre poskytovanie údajov o katalógu a agregácie údajov z iných katalógov je Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH), prípadne nový štandard Data Catalog Vocabulary (DCAT) z dielne W3C a EU projektu open-data.europa.eu.

Metadáta - informácie popisujúce dátový zdroj

Každý dátový zdroj musí obsahovať príslušné metadáda popisujúce dátový zdroj, spôsob sprístupnenia, aktualizácie a iné informácie.

Minimálna štruktúra údajov popisujúca dátový zdroj

  • názov dátového zdroja,
  • dátum, kedy bol dátový zdroj prvý krát zverejnený,
  • dátum, kedy bola aktuálna verzia dátového zdroja zverejnená,
  • dátum, ku ktorému sú údaje platné, alebo informácia, že ide o aktuálne údaje v čase prístupu,
  • odporúčané: dátum najbližšej aktualizácie (pokiaľ nejde o sprístupnenie vždy aktuálnych údajov),
  • jednoznačný identifikátor (IČO) pri subjektoch, ktoré ho majú,
  • jednoznačné URL sprístupneného dátového zdroja,
  • typ licencie,
  • sprístupnenie doplňujúcich informácií, ktoré majú napomôcť automatizovanému spracovaniu údajov dátového zdroja:
    • schémy údajov - pokiaľ schéma údajov (t.j. členenie dátového zdroja na typy údajov, konkrétne záznamy a vzťahy medzi týmito entitami) nie je triviálna
    • popis typov položiek - najmä v prípade, ak sú používané netypické dátové typy, číselníkové typy, skratky, zložené dátové typy a pod.
    • popis formátov v ktorých je dátový zdroj sprístupňovaný - napr. formáty súborov
    • popis možných nepravidelností v štruktúre

V prípade, že je správcovi údajov známe, že niektoré údaje sú neaktuálne, nesprávne, alebo neúplné, tieto údaje musia byť označené spôsobom umožňujúcim automatizovane ich odlíšiť od aktuálnych, správnych, alebo úplných údajov (o.i. to znamená, že prítomnosť takýchto údajov nie je sama osebe dôvodom na nesprístupnenie dátového zdroja).

Jednotlivé položky údajov ukladať spôsobom:

  • umožňujúcim ich lokalizáciu (najmä odlíšenie od iných položiek) v rámci dátového zdroja
  • čítanie automatizovaným spôsobom
  • rovnakým spôsobom pre všetky dátové vety v určitom dátovom zdroji (dátová veta je množina súvisiacich položiek opisujúcich určitý objekt)

Prípustné nie sú

  • formáty určené na čítanie pre používateľa, ktoré neumožňujú automatizované spracúvanie údajov (napr. web aplikácia)
  • nepravidelný formát dátovej vety
  • nemožnosť izolovať z dátovej vety/súboru konkrétne položky

 

 

Kvalita datasetov

OpenData portál data.gov.sk má ambíciu popri zverejnení zdrojov datasetov (rola dátového katalógu) vystupovať aj v roli arbitra - hodnotiť kvalitu zverejnených datasetov.

Metodika hodnotenia kvality datasetov je odvodené z W3C metodiky 5 Stars (5 hviezdičiek).

Hodnotenie datasetov vychádza z predpokladov ako:

  • strojová spracovateľnosť dátového zroja,
  • poskytovanie štrukturovanej informácie,
  • licenčná otvorenosť a nezávislosť od konkrétnej sw aplikácie,
  • štandardizovaný prostriedok na popis štruktúry dátového zdroja - schéma a prípadne sémantika,
  • prepojiteľnosť obsahu dátového zdroja s inými dátovými zdrojmi.


Dátový zdroj:

-dataset má 0 hviezdičiek v prípade, že je neaktuálny
je dostupný na webe a je aktuálny
★★★ + jeho obsah je štrukturovaný
★★★★★ + otvorený formát nezávislý na konkrétnom proprietárnom programovom vybavení (SW)
★★★★★★★ + URL dátového zdroja je jednoznačné a nemenné
★★★★★★★★★ + dáta sú linkované na iné dátové zdroje

Príklady:

Viac informácií na:

(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)

Formáty pre zverejňovanie

Používané formáty

 

FormátNezávislosť
na aplikácii
Zápis v
štrukturovanej podobe
Popis
štruktúry
dát
Popis
sémantiky
dát

Prepojiteľnosť,

linkovanie

Kvalita*
PDFNieNieNieNieNie
DOC(X), RTF,
ODT
NieNieNieNieNie
TXTÁnoNieNieNieNie★★
HTMLÁnoČiastočneNieNieNie★★
XLS(X)NieČiastočneNieNieNie★★
CSVÁnoÁnoČiastočneNieNie★★★
JSONÁnoÁnoČiastočneNieNie★★★
XMLÁnoÁnoÁnoNieNie★★★★
RDFÁnoÁnoÁnoÁnoÁno★★★★★

* Hodnotenie kvality

Odporučené formáty pre poskytovanie prepojiteľných strojovo spracovateľných dát

V súčasnej dobe sa začína uplatňovať technológia linkovaných/prepojiteľných dát ( linked data) využívajúca RDF formát.

RDF - Resource Description Framework

RDF je štandardizovaný model pre dátovú výmenu pomocou web technológií. RDF zabezpečuje prepojiteľnosť dát aj v prípadoch použitia rôznych dátových schém a zároveň zabezpečuje podporu postupného vývoja a zmien v dátových schémach bez potreby zásahu do samotných dát.

Umožňuje zápis grafových (sieťových) dát. Umožňuje zachytiť ľubovolné štrukturované dáta v strojovo spracovateľnej podobe. Ponúka štandardizovaný spôsob zápisu štruktúry a sémantiky dát. Je založený na známych princípoch webu umožňujúcich prepájanie súvisiacich dát z rôznych zdrojov.

RDF rozširuje linkovanie webových objektov definovaných jednoznačnými URI pridaním relácií medzi objektmi. Jednoznačná relácia dvoch objektov (dve jednoznačné URL linky popisujúce objekty) je definovaná treťou jednoznačnou URL linkou popisujúcou samotnú reláciu. Takýto vzťah nazývame "triple". (viac info napr. http://en.wikipedia.org/wiki/Resource_Description_Framework) Pomocou tohto modelu je možné spájať štrukturované a čiastočne štrukturované dáta, definovať medzi nimi vzťahy a zdieľať ich pre rôzne aplikácie.

Ide o základný prvok tzv. Prepojiteľných strojovo spracovateľných dát (Linked Data) štandardizovaný na úrovni W3C.

Aktuálne špecifikácie štandardov W3C.

(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)

Prípustné nie sú

  • tabuľky vyjadrené v textovom súbore
  • proprietárne formáty tabuľkových súborov - napr. XLS
  • súbory obsahujúce aktívne prvky tabuliek (napr. makrá, vzorce)
  • iba obalenie nevhodného súboru do XML

(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)

Prepojiteľné dáta - Linked Data

TO DO

Treba prebehnúť a zapracovať návrh z PS1 pre štandardy prepojiteľných dát.

 

Z dôvodu stále narastajúceho objemu strojovo spracovateľných dát z rôznych zdrojov je nutné hľadať formy vzájomnej prepjiteľnosti dát. Riešením je poskytovanie vzájomne prepojiteľných dát (Linked Data).

Dáta je vhodné publikovať tak, aby prepojiteľnosť umožňovali. Prepojiteľnosť je možné charakterizovať nasledujúcimi technologickými princípmi:

  • Konkrétne a abstraktné objekty majú priradené jednoznačné URI ako jednoznačné identifikátory.
  • Používajú sa iba HTTP URI tak, aby webové prehliadače a aplikácie mohli k URI pristupovať a získať informácie o príslušnom objekte.
  • Konkrétne HTTP URI daného objektu poskytuje dáta o objekte v strojovo spracovateľnej forme vo formáte RDF - Resource Description Framework.
  • Dáta o objekte obsahujú prepojenie na iné objekty znovu pomocou jednoznačných HTTP URI.

 

Odporúčané formáty pre prepojiteľné dáta

 Linked data vo formátoch RDF (Turtle, RDF/XML, ...), OWL, SKOS, ...

FormátNezávislosť
na aplikácii
Zápis v
štrukturovanej podobe
Popis
štruktúry
dát
Popis
sémantiky
dát

Prepojiteľnosť,

linkovanie

Kvalita*
neaktuálnu dátový zdroj------
XMLÁnoÁnoÁnoNieNie★★★★
ODataÁnoÁnoÁnoČiastočneČiastočne★★★★
RDF, TurtleRDF/XMLÁnoÁnoÁnoÁnoÁno★★★★★
SKOSÁnoÁnoÁnoÁnoÁno ★★★★★ 
OWLÁnoÁnoÁnoÁnoÁno★★★★★

* Hodnotenie kvality

Prípustné nie sú

  • nekonzistentné či neúplné dáta

(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)

API pre strojovo spracovateľné a prepojiteľné dáta

 

Formát
Nezávislosť
na aplikácii
Zápis v
štrukturovanej podobe
Popis
štruktúry
dát
Popis
sémantiky
dát

Prepojiteľnosť,

linkovanie

Kvalita*
ODataÁnoÁnoÁnoČiastočneČiastočne★★★★
RDF/SPARQL endpointÁnoÁnoÁnoÁnoÁno★★★★★

*  Hodnotenie kvality

Prípustné nie sú

  • nekonzistentné či neúplné dáta
  • nekonzistentné či neúplné API (ak napríklad obsahuje funkciu "getItem()" ale neobsahuje "listItems()")
  • nekonzistentná či neúplná dokumentácia k API
  • nevysvetlené a neohlásené výpadky funkčnosti API
Pravdepodobne by sme mali popísať notácie Atom a JSON.

Relevantné časti výnosu

§ 11 Middleware protokoly sieťovej komunikácie

Štandardom pre middleware protokoly sieťovej komunikácie je používanie

a) protokolu Simple Object Access Protocol (SOAP) minimálne vo verzii 1.2 pri komunikácii medzi servermi v rámci jednej správy a komunikácii medzi klientom a serverom,

b) webových služieb na prístup klientskych aplikácií prostredníctvom internetu na serverové aplikácie správy,

c) protokolu Hypertext Transfer Protocol (HTTP) na poskytnutie vrstvy webovej služby pre existujúcu serverovú aplikáciu a komunikáciu na aplikačnej úrovni,

d) jazyka Web Services Description Language (WSDL) na definíciu webovej služby,

e) registra Universal Description, Discovery and Integration (UDDI) minimálne vo verzii 1.0 na komunikáciu medzi klientom a serverom,

f) špecifikácií pre mapové služby pod

1. OpenGIS WebMap Service (WMS),

2. OpenGIS Web Feature Service (WFS),

3. OpenGIS Web Coverage Service (WCS),

4. OpenGIS Web Processing Service (WPS),

5. OpenGIS Catalog Service for Web (CSW).

§ 12 Popisný jazyk pre dátové prvky

Štandardom pre popisný jazyk pre dátové prvky je používanie jazyka Extensible Markup Language (XML) podľa World Wide Web Consortium (W3C) pre dátové prvky pri vstupe na rozhranie informačného systému verejnej správy.

§ 13 Prenos dátových prvkov

Štandardom pre prenos dátových prvkov je používanie

a) jazyka schém XML Schema Definition (XSD) minimálne vo verzii 1.0 na výmenu dátových prvkov medzi všetkými informačnými systémami verejnej správy nezávisle od účelu správy,

b) formátu Extensible Markup Language (.xml) vo verzii 1.0 podľa Word Wide Web (W3C) pri výmene dátových prvkov,

c) špecifikácie znakovej sady Unicode Transformation Format (UTF), a to 8-bitové kódovanie UTF-8 pre integráciu údajov,

d) transformačného jazyka XSL Transformations (XSLT) podľa World Wide Web Consortium (W3C) pri transformácii dátových prvkov,

e) modelovacieho jazyka Geography Markup Language (GML) pri výmene priestorových údajov.

  • No labels