You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 32 Current »

Zdroje informácií

Terminológia

=toto presunúť do metodiky, sú to poznámky, ktoré sme používali pri tvorbe:

Tu má byť výkladový slovník.

Treba uviesť všetky termíny, ktoré sú v oblasti OpenData používané. Termíny a ich vysvetlenie má byť také, aby bolo "legislatívne" použiteľné. Viac info viď. INFORMATIZÁCIA - Terminológia , v podstate to má zapadnúť sem: Metodický pokyn na použitie odborných výrazov pre oblasť IS (aka "Glosár") .

K termínom môžu byť zaujímavé tieto dokumenty:

 

význam farieb v tabuľke nižšie
prijateľný termín
návrh prijateľného termínu
treba riešiť
TermínEN ekvivalentVýznam/výkladpoznámky
otvorené dátaOpenDatadraft:
preklad Open Definition: "Údaj alebo obsah je otvorený ak je komukoľvek dovolený prístup, použitie a opätovné publikovanie tohto údaju. Jediným prípadným obmedzením môže byť len požiadavka spolu s údajom zverejniť aj jeho zdroj alebo požiadavka poskytnúť pre opätovne publikovaný údaj rovnaké podmienky použitia aké boli poskytnuté pri pôvodnom zdroji."

Open Definition 1.1

dátový zdrojdatasetDatabáza publikovaná alebo spravovaná jedným gestorom (prevádzkovateľom, organizáciou, ... - TODO: vybrať jeden najvhodnejší termín) poskytovaná spolu metadátami a prípadne aj dokumentáciou potrebnou na znovupoužitie údajov iným subjektom (popis dátových entít, spôsob získavania údajov, spôsob úpravy údajov po ich získaní ale pred ich zverejnením, a pod.).

Z http://blog.ldodds.com/2013/02/09/what-is-a-dataset/ čerpám tieto vybrané definície od W3C, ku ktorým by som sa priklonil:

databáza; databáza údajov 

Súbor dátových objektov v elektronickej forme uložených
spoločne podľa rovnakej schémy a sprístupňovaných
elektronicky. Za databázu sa nepovažuje počítačový
program, použitý pri zhotovení alebo prevádzke
databázy.
IKT  MF
„Súbor nezávislých diel, údajov alebo iných materiálov
systematicky alebo metodicky usporiadaných a jednotlivo
prístupných elektronickými alebo inými prostriedkami. Za
databázu sa nepovažuje počítačový program použitý pri
zhotovení alebo prevádzke databázy prístupnej
elektronickými prostriedkami.“
IKT  Zákon č. 618/2003 Z. z.
„Súbor dátových objektov v elektronickej forme
uložených spoločne podľa rovnakej schémy
a sprístupňovaných počítačom.“

ISO 690-2-2000:3.5

toto už dnes je definované v Glosári

zjavne je to podobná definícia ako to čo potrebujeme pre "Dataset", ale "nie je to úplne ono": dôležitý rozdiel sú metadáta a dokumentácia

katalóg dátových zdrojovData Catalogs ?  
prepojené dátaLinked DataDátový zdroj ktorý umožňuje prepojenie svojich dátových objektov s dátovými objektami z iného dátového zroja. Metóda prepojenia musí byť použiteľná aj pre strojové spracovanie. Užitočnosť dvoch prepojených dátových zdrojov je väčšia, ako užitočnosť dátových zdrojov izolovane osve. 
prepojené otvorené dátaLinked Open Data (LOD)Prepojené dáta, ktoré sú zároveň aj otvorené dáta. 
aplikačné rozhranieAPI  
automatizovane/strojovo spracovateľné údajeMachine-readable (data)  
kvalita dátového zdroja   
 raw data  
dáta; údaje Reprezentácia informácií formalizovaným spôsobom
vhodným na komunikáciu, interpretáciu a spracovanie.
toto už dnes je definované v Glosári
metadáta; metaúdaje Štruktúrované údaje, ktoré obsahujú informácie o
primárnych (iných) údajoch.
IKT  KTD
„Informácie opisujúce súbory priestorových údajov
a služby priestorových údajov, ktoré umožňujú ich
zisťovanie, katalogizáciu a využívanie.“
egov  Smernica 2007/2/ES
Pozn.: Pojem sa používa najmä v súvislosti s elektronickými zdrojmi a
vzťahuje sa k údajom, ako sú dátové súbory, textové informácie,
obrazové informácie, hudba a pod.
Funkcia metadát je popisná, selekčná a archivačná.  V súvislosti s
týmito funkciami sa rozlišujú metadáta na účely popisu, správy,
právnych nárokov, technické funkčnosti, používanie a archiváciu. Údaje
možno vkladať aj priamo do zdroja, napr. do záhlavia dokumentu
HTML.
toto už dnes je definované v Glosári
metainformácia Informácia, ktorá je v transformačnom vzťahu k inej
informácii. Je nástrojom popisu súvisiacej informácie.
Slúži ako prostriedok na získanie obsahu popisovanej
informácie vo vyhľadávacích systémoch.
toto už dnes je definované v Glosári
dátová / údajová entita Typ dátového objektu (napr. fyzická osoba, právnická
osoba, nehnuteľnosť atď.) spolu s informáciami
charakterizujúcimi tento objekt.
toto už dnes je definované v Glosári
dátový / údajový objekt Jednotlivý údaj, vzájomne súvisiaca skupina údajov,
nezávislé diela alebo materiály v elektronickej forme.
toto už dnes je definované v Glosári
dátový prvok Jednotka údajov, ktorá je jednoznačne a nedeliteľne
špecifikovaná prostredníctvom súboru atribútov t.j.
vlastností dátových objektov alebo údajových entít.
toto už dnes je definované v Glosári
hodnota dátového prvku Obsah dátového prvku vyjadrený kódom, číslicou alebo
slovným popisom, ktorý sa vzťahuje k popisu a
zobrazeniu dátového prvku.
toto už dnes je definované v Glosári
sémantická interoperabilita Postupy na zabezpečenie, aby akákoľvek aplikácia, ktorá
sa pôvodne vyvinula na iný účel, presne porozumela
významu vymieňaných informácií. Umožňuje systémom
kombinovať získané informácie s inými informačnými
zdrojmi a zmysluplne ich spracúvať.
toto už dnes je definované v Glosári
technická interoperabilita Postupy, ktoré zahŕňajú technické záležitosti prepájania
počítačových systémov a služieb. Zahŕňa kľúčové
aspekty, ako sú otvorené rozhrania, služby prepájania,
integráciu údajov, middleware, prezentáciu a výmenu
údajov, prístupnosť a služby zabezpečenia.
toto už dnes je definované v Glosári
konverzia dát Zmena spôsobu zápisu dát pomocou niektorého z
konverzných programov. Kódy jednotlivých znakov sú
prevedené podľa daných konverzných tabuliek. Význam
údajov zostáva zachovaný.
toto už dnes je definované v Glosári
zverejnená informácia Informácia, ktorú môže každý opakovane vyhľadávať
a získavať, najmä informácia publikovaná v tlači alebo
vydaná na inom hmotnom nosiči dát umožňujúcom zápis
a uchovanie informácie, alebo vystavená na úradnej
tabuli s možnosťou voľného prístupu, alebo sprístupnená
pomocou zariadenia umožňujúceho hromadný prístup,
alebo umiestnená vo verejnej knižnici.
toto už dnes je definované v Glosári
identifikátor Identifikačný údaj, ktorý zabezpečuje jednoznačnosť
dátovej entity alebo subjektu v informačných systémoch.
toto už dnes je definované v Glosári
identita Pozri totožnosť. (tam sa píše iba o totožnosti osoby)

toto už dnes je definované v Glosári

Ale zjavne budeme chcieť to predefinovať!
číselník Zoznam prípustných hodnôt údajového prvku obvykle vo
forme dvojíc kódovaného údaja a hodnoty jeho kódu.
toto už dnes je definované v Glosári
centrálny číselník Centrálne, prostredníctvom informačného systému
verejnej správy, vedený číselník.
toto už dnes je definované v Glosári
CSV Formát určený pre výmenu údajov medzi tabuľkovými
kalkulátormi.

toto už dnes je definované v Glosári

Ale zjavne budeme chcieť to predefinovať!

formát dát Vnútorná štruktúra dát, s ktorou pracuje príslušná
aplikácia a v ktorej sú dáta ukladané na pamäťové
médium a načítané do operačnej pamäti.
toto už dnes je definované v Glosári
otvorený štandard Otvorený štandard je taká technická špecifikácia, ktorá je
(1) prijatá a udržovaná neziskovou organizáciou alebo
konzorciom, (2) jej ďalší vývoj a modifikácie vychádzajú z
otvoreného rozhodovacieho procesu, prístupného
všetkým záujemcom, na základe zhody alebo
rozhodovania väčšinovým hlasovaním, (3) je zverejnená
a príslušné dokumenty sú prístupné buď volne, aleboza
nominálny poplatok a (4) prípadné súvisiace duševné
Metodický pokyn na použitie odborných výrazov pre oblasťIS
35
vlastníctvo – patenty – sú neodvolateľne bezplatne
sprístupnené pre všetkých rovnako.
toto už dnes je definované v Glosári
    

Sprístupňované dáta

Pod pojmom sprístupňované dáta rozumieme všetky dáta poskytované verejnou správou pre verejné aj interné použitie, vrátane otvorených dát (tzv. OpenData).

Všetky dáta ktoré je možné sprístupniť ako otvorené dáta by mali byť zverejňované ako otvorené dáta.

Sprístupňovanie strojovo spracovateľných dát

Dáta verejnej správy by mali byť sprístupňované ako:

  1. úplné - dáta sú zverejnené v maximálnom možnom rozsahu. Rozsah môže byť definovaný právnym predpisom, uznesením vlády, alebo poskytovateľom dát,
  2. jednoducho dostupné - dáta sú dostupné na internete,
  3. strojovo spracovateľné,
  4. v štandardizovanom formáte - použité štandardy musia mať voľne dostupnú špecifikáciu,
  5. musia byť sprístupnené s jasne definovanými licenčnými podmienkami a minimom obmedzení,
  6. dostupné používateľom pri vynaložení minima možných nákladov na ich získanie,
  7. primárne - dáta ktoré sú sprístupňované sú zverejňované aj v primárnej podobe, v akej boli vytvorené. Za primárne dáta sa považujú aj:
    1. referenčné údaje zo základných registrov,
    2. dáta z registrov,
    3. agregované, prípadne anonymizované dáta, ak nie je možné sprístupniť zdrojové dáta,
    4. agregované dáta, ak je uvedený spôsob agregácie a odkaz na sprístupnené primárne dáta agregácie,
  8. zverejnené bez zbytočného odkladu,
  9. neobmedzujúce prístup - dáta sú dostupné spôsobom, ktorý nediskriminuje jednotlivcov, alebo skupiny osôb,
  10. stále dostupné - dáta sú dostupné on-line po dobu uvedenú ich poskytovateľom.

Vychádzajúc z koncepcie Sunlight Foundation pre otvorené dáta, sú dáta verejnej správy otvorené, ak spĺňajú aspoň body 1-6.

Dáta sú vždy súčasťou určitého dátového zdroja (datasetu).

Datasety

Dataset je ucelená skupina údajov, vytvorená a udržiavaná za určitým účelom. Dátové zdroje verejnej správy sú vytvárané za účelom podpory služieb verejnej správy, služieb vo verejnom záujme alebo verejných služieb. Jednotlivé agendy súvisiace s výkonom verejnej správy môžu obsahovať viaceré dátové zdroje.
Charakteristickým znakom dátového zdroja je jeho samostatná použiteľnosť (výpovedná hodnota) nezávisle od iných dátových zdrojov. Ďalšími znakmi popisujúcimi dátový zdroj sú názov, účel (zameranie), typy spracúvaných údajov a vzťahy medzi nimi, formát údajov a podobne – tzv. metadáta.
S prístupnenie dátového zdroja zabezpečuje jeho správca na základe vlastného rozhodnutia a pomocou vlastných prostriedkov (t.j. na portáli otvorených dát budú uložené len katalógy, nie samotné údaje).

Spôsoby sprístupnia

Rozlišujeme tri základné spôsoby sprístupnenia:
  1. dáta sprístupnené ako jeden celok v jednom, alebo v skupine súborov s údajmi - ide o pasívny spôsob prístupu, kde server sprístupní "naraz" celý blok údajov (súbor/súbory) v definovanom formáte,
  2. dáta obsahujúce prírastky v definovaných časových intervaloch popísaných v metadátach dátového zdroja,
  3. prístup cez aplikačné rozhranie (API) - ide o aktívny prístup, kde používateľ, alebo aplikácia zadávajú serveru dopyty na konkrétne požadovaná údaje, ktoré server po spracovaní dopytu vyhľadá a odošle v štandardizovanom formáte.

Zverejnené strojovo spracovateľné dáta musia byť zverejnené aj v príslušnom dátovom katalógu spolu s príslušnými metadátami.

Sprístupnenie strojovo spracovateľných dát

Údaje sa sprístupňujú prostredníctvom sieťovej infraštruktúry ( §3 ods.2 písm. j) zákona), v sieti Internet.

Dátový zdroj musí mať určitú lokáciu, ktorá je stabilná:

  • vyjadrená pomocou URL (resp. iného konkrétneho identifikátora, ak ide o prístup iným protokolom)
  • zmena lokácie nastáva iba vo výnimočnom prípade, napr. pri zmene formátu údajov, nasadzovaní nového webového sídla

Prístupu sa venujú štandardy pre prepojenie, najmä §3, §4, §5 výnosu a štandardy pre prístup k elektronickým službám, najmä §9 výnosu a štandardy pre webové služby, §11 výnosu.

Server musí vyhodnocovať požiadavky na prístup bezstavovo, t.j. požiadavka je vyhodnotená bez ohľadu na spracovanie predchádzajúcich požiadaviek. Prípustné sú aj viaceré "pohľady" na údaje. Pod pohľadom rozumieme spoločne prezentovanú časť dátového zdroja, spravidla ide o na dátovom zdroji vykonanú reštrikciu (filter) určitých položiek, objektov, alebo vzťahov medzi objektmi - napr. ak z dôvodu ochrany osobných údajov nie je možné sprístupniť celý dátový zdroj, je prezentácia rôznych pohľadov žiadanou alternatívou.

Prípustné nie sú

  • "roztrúsené" umiestnenie údajov - napr. potreba preklikávania "stránok", parsovanie údajov zo stránok
  • prvky určené na ovládanie používateľom - napr. tlačítka, grafické prvky
  • požadovaná identifikácia, autentifikácia, či iná práca s používateľom

Dátové katalógy

Centrálny dátový katalóg je jednotné miesto pre vyhľadávanie sprístupňovaných dát verejnej správy. Dátový katalóg neslúži na ukladanie samotných dát, ale je určený na ukladanie záznamov a metadát popisujúcich dátové zdroje. Na základe týchto údajov sú používatelia Dátového katalógu schopní vyhľadať konkrétny dátový zdroj, jeho umiestnenie (URL) a jeho popis.

Centrálny katalóg by mal mať základnú funkcionalitu pre poskytovateľov dát, nevyhnutnú pre pokrytie procesu registrácie nového dátového zdroja, následnú aktualizáciu informácií a prípadné odstránenie informácií o dátovom zdroji.

Centrálny katalóg by mal mať možnosť agregovať informácie z dátových katalógov na nižšej úrovni a poskytovať informácie o svojom obsahu pre ostatné katalógy a systémy.
Problematika katalógov je podrobne rozpracovaná oblasti archívnictva. Odporúčaný štandard pre poskytovanie údajov o katalógu a agregácie údajov z iných katalógov je Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH), prípadne nový štandard Data Catalog Vocabulary (DCAT) z dielne W3C a EU projektu open-data.europa.eu.

Metadáta - informácie popisujúce dátový zdroj

Každý dátový zdroj musí obsahovať príslušné metadáda popisujúce dátový zdroj, spôsob sprístupnenia, aktualizácie a iné informácie.

Minimálna štruktúra údajov popisujúca dátový zdroj

  • názov dátového zdroja,
  • dátum, kedy bol dátový zdroj prvý krát zverejnený,
  • dátum, kedy bola aktuálna verzia dátového zdroja zverejnená,
  • dátum, ku ktorému sú údaje platné, alebo informácia, že ide o aktuálne údaje v čase prístupu,
  • odporúčané: dátum najbližšej aktualizácie (pokiaľ nejde o sprístupnenie vždy aktuálnych údajov),
  • jednoznačný identifikátor (IČO) pri subjektoch, ktoré ho majú,
  • jednoznačné URL sprístupneného dátového zdroja,
  • typ licencie,
  • sprístupnenie doplňujúcich informácií, ktoré majú napomôcť automatizovanému spracovaniu údajov dátového zdroja:
    • schémy údajov - pokiaľ schéma údajov (t.j. členenie dátového zdroja na typy údajov, konkrétne záznamy a vzťahy medzi týmito entitami) nie je triviálna
    • popis typov položiek - najmä v prípade, ak sú používané netypické dátové typy, číselníkové typy, skratky, zložené dátové typy a pod.
    • popis formátov v ktorých je dátový zdroj sprístupňovaný - napr. formáty súborov
    • popis možných nepravidelností v štruktúre

V prípade, že je správcovi údajov známe, že niektoré údaje sú neaktuálne, nesprávne, alebo neúplné, tieto údaje musia byť označené spôsobom umožňujúcim automatizovane ich odlíšiť od aktuálnych, správnych, alebo úplných údajov (o.i. to znamená, že prítomnosť takýchto údajov nie je sama osebe dôvodom na nesprístupnenie dátového zdroja).

Jednotlivé položky údajov ukladať spôsobom:

  • umožňujúcim ich lokalizáciu (najmä odlíšenie od iných položiek) v rámci dátového zdroja
  • čítanie automatizovaným spôsobom
  • rovnakým spôsobom pre všetky dátové vety v určitom dátovom zdroji (dátová veta je množina súvisiacich položiek opisujúcich určitý objekt)

Prípustné nie sú

  • formáty určené na čítanie pre používateľa, ktoré neumožňujú automatizované spracúvanie údajov (napr. web aplikácia)
  • nepravidelný formát dátovej vety
  • nemožnosť izolovať z dátovej vety/súboru konkrétne položky

 

 

Kvalita datasetov

OpenData portál data.gov.sk má ambíciu popri zverejnení zdrojov datasetov (rola dátového katalógu) vystupovať aj v roli arbitra - hodnotiť kvalitu zverejnených datasetov.

Metodika hodnotenia kvality datasetov je odvodené z W3C metodiky 5 Stars (5 hviezdičiek).

Hodnotenie datasetov vychádza z predpokladov ako:

  • strojová spracovateľnosť dátového zroja,
  • poskytovanie štrukturovanej informácie,
  • licenčná otvorenosť a nezávislosť od konkrétnej sw aplikácie,
  • štandardizovaný prostriedok na popis štruktúry dátového zdroja - schéma a prípadne sémantika,
  • prepojiteľnosť obsahu dátového zdroja s inými dátovými zdrojmi.


Dátový zdroj:

-dataset má 0 hviezdičiek v prípade, že je neaktuálny
je dostupný na webe a je aktuálny
★★★ + jeho obsah je štrukturovaný
★★★★★ + otvorený formát nezávislý na konkrétnom proprietárnom programovom vybavení (SW)
★★★★★★★ + URL dátového zdroja je jednoznačné a nemenné
★★★★★★★★★ + dáta sú linkované na iné dátové zdroje

Príklady:

Viac informácií na:

(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)

Formáty pre zverejňovanie

Používané formáty

 

FormátNezávislosť
na aplikácii
Zápis v
štrukturovanej podobe
Popis
štruktúry
dát
Popis
sémantiky
dát

Prepojiteľnosť,

linkovanie

Kvalita*
PDFNieNieNieNieNie
DOC(X), RTF,
ODT
NieNieNieNieNie
TXTÁnoNieNieNieNie★★
HTMLÁnoČiastočneNieNieNie★★
XLS(X)NieČiastočneNieNieNie★★
CSVÁnoÁnoČiastočneNieNie★★★
JSONÁnoÁnoČiastočneNieNie★★★
XMLÁnoÁnoÁnoNieNie★★★★
RDFÁnoÁnoÁnoÁnoÁno★★★★★

* Hodnotenie kvality

Odporučené formáty pre poskytovanie prepojiteľných strojovo spracovateľných dát

V súčasnej dobe sa začína uplatňovať technológia linkovaných/prepojiteľných dát ( linked data) využívajúca RDF formát.

RDF - Resource Description Framework

RDF je štandardizovaný model pre dátovú výmenu pomocou web technológií. RDF zabezpečuje prepojiteľnosť dát aj v prípadoch použitia rôznych dátových schém a zároveň zabezpečuje podporu postupného vývoja a zmien v dátových schémach bez potreby zásahu do samotných dát.

Umožňuje zápis grafových (sieťových) dát. Umožňuje zachytiť ľubovolné štrukturované dáta v strojovo spracovateľnej podobe. Ponúka štandardizovaný spôsob zápisu štruktúry a sémantiky dát. Je založený na známych princípoch webu umožňujúcich prepájanie súvisiacich dát z rôznych zdrojov.

RDF rozširuje linkovanie webových objektov definovaných jednoznačnými URI pridaním relácií medzi objektmi. Jednoznačná relácia dvoch objektov (dve jednoznačné URL linky popisujúce objekty) je definovaná treťou jednoznačnou URL linkou popisujúcou samotnú reláciu. Takýto vzťah nazývame "triple". (viac info napr. http://en.wikipedia.org/wiki/Resource_Description_Framework) Pomocou tohto modelu je možné spájať štrukturované a čiastočne štrukturované dáta, definovať medzi nimi vzťahy a zdieľať ich pre rôzne aplikácie.

Ide o základný prvok tzv. Prepojiteľných strojovo spracovateľných dát (Linked Data) štandardizovaný na úrovni W3C.

Aktuálne špecifikácie štandardov W3C.

(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)

Prípustné nie sú

  • tabuľky vyjadrené v textovom súbore
  • proprietárne formáty tabuľkových súborov - napr. XLS
  • súbory obsahujúce aktívne prvky tabuliek (napr. makrá, vzorce)
  • iba obalenie nevhodného súboru do XML

(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)

Prepojiteľné dáta - Linked Data

TO DO

Treba prebehnúť a zapracovať návrh z PS1 pre štandardy prepojiteľných dát.

 

Z dôvodu stále narastajúceho objemu strojovo spracovateľných dát z rôznych zdrojov je nutné hľadať formy vzájomnej prepjiteľnosti dát. Riešením je poskytovanie vzájomne prepojiteľných dát (Linked Data).

Dáta je vhodné publikovať tak, aby prepojiteľnosť umožňovali. Prepojiteľnosť je možné charakterizovať nasledujúcimi technologickými princípmi:

  • Konkrétne a abstraktné objekty majú priradené jednoznačné URI ako jednoznačné identifikátory.
  • Používajú sa iba HTTP URI tak, aby webové prehliadače a aplikácie mohli k URI pristupovať a získať informácie o príslušnom objekte.
  • Konkrétne HTTP URI daného objektu poskytuje dáta o objekte v strojovo spracovateľnej forme vo formáte RDF - Resource Description Framework.
  • Dáta o objekte obsahujú prepojenie na iné objekty znovu pomocou jednoznačných HTTP URI.

 

Odporúčané formáty pre prepojiteľné dáta

 Linked data vo formátoch RDF (Turtle, RDF/XML, ...), OWL, SKOS, ...

FormátNezávislosť
na aplikácii
Zápis v
štrukturovanej podobe
Popis
štruktúry
dát
Popis
sémantiky
dát

Prepojiteľnosť,

linkovanie

Kvalita*
neaktuálnu dátový zdroj------
XMLÁnoÁnoÁnoNieNie★★★★
ODataÁnoÁnoÁnoČiastočneČiastočne★★★★
RDF, TurtleRDF/XMLÁnoÁnoÁnoÁnoÁno★★★★★
SKOSÁnoÁnoÁnoÁnoÁno ★★★★★ 
OWLÁnoÁnoÁnoÁnoÁno★★★★★

* Hodnotenie kvality

Prípustné nie sú

  • nekonzistentné či neúplné dáta

(strikethrough = u zapracovane do Návrh metodiky a štandardu pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát)

API pre strojovo spracovateľné a prepojiteľné dáta

 

Formát
Nezávislosť
na aplikácii
Zápis v
štrukturovanej podobe
Popis
štruktúry
dát
Popis
sémantiky
dát

Prepojiteľnosť,

linkovanie

Kvalita*
ODataÁnoÁnoÁnoČiastočneČiastočne★★★★
RDF/SPARQL endpointÁnoÁnoÁnoÁnoÁno★★★★★

*  Hodnotenie kvality

Prípustné nie sú

  • nekonzistentné či neúplné dáta
  • nekonzistentné či neúplné API (ak napríklad obsahuje funkciu "getItem()" ale neobsahuje "listItems()")
  • nekonzistentná či neúplná dokumentácia k API
  • nevysvetlené a neohlásené výpadky funkčnosti API
Pravdepodobne by sme mali popísať notácie Atom a JSON.

Relevantné časti výnosu

§ 11 Middleware protokoly sieťovej komunikácie

Štandardom pre middleware protokoly sieťovej komunikácie je používanie

a) protokolu Simple Object Access Protocol (SOAP) minimálne vo verzii 1.2 pri komunikácii medzi servermi v rámci jednej správy a komunikácii medzi klientom a serverom,

b) webových služieb na prístup klientskych aplikácií prostredníctvom internetu na serverové aplikácie správy,

c) protokolu Hypertext Transfer Protocol (HTTP) na poskytnutie vrstvy webovej služby pre existujúcu serverovú aplikáciu a komunikáciu na aplikačnej úrovni,

d) jazyka Web Services Description Language (WSDL) na definíciu webovej služby,

e) registra Universal Description, Discovery and Integration (UDDI) minimálne vo verzii 1.0 na komunikáciu medzi klientom a serverom,

f) špecifikácií pre mapové služby pod

1. OpenGIS WebMap Service (WMS),

2. OpenGIS Web Feature Service (WFS),

3. OpenGIS Web Coverage Service (WCS),

4. OpenGIS Web Processing Service (WPS),

5. OpenGIS Catalog Service for Web (CSW).

§ 12 Popisný jazyk pre dátové prvky

Štandardom pre popisný jazyk pre dátové prvky je používanie jazyka Extensible Markup Language (XML) podľa World Wide Web Consortium (W3C) pre dátové prvky pri vstupe na rozhranie informačného systému verejnej správy.

§ 13 Prenos dátových prvkov

Štandardom pre prenos dátových prvkov je používanie

a) jazyka schém XML Schema Definition (XSD) minimálne vo verzii 1.0 na výmenu dátových prvkov medzi všetkými informačnými systémami verejnej správy nezávisle od účelu správy,

b) formátu Extensible Markup Language (.xml) vo verzii 1.0 podľa Word Wide Web (W3C) pri výmene dátových prvkov,

c) špecifikácie znakovej sady Unicode Transformation Format (UTF), a to 8-bitové kódovanie UTF-8 pre integráciu údajov,

d) transformačného jazyka XSL Transformations (XSLT) podľa World Wide Web Consortium (W3C) pri transformácii dátových prvkov,

e) modelovacieho jazyka Geography Markup Language (GML) pri výmene priestorových údajov.

Návrh zmien textácií vo výnose a metodickom pokyne

Návrh vychádza z horeuvedených faktov a je v tomto kole v opisnej forme - po úvodnej diskusii v PS 3 sa začne formulovať formálna stránka.

V textoch sa spomínajú nové SKRATKY. Je otázne či ich je potrebné separátne popisovať. Jednak sú všetky zabehnuté štandardy reálne sú to konkrétne implementácie už vo výnose definovaného popisného jazyka pre dátové prvky XML a XSD, alebo v prípade API ide o implementáciu nad už zavedeným WSDL. Rovnako je možné všetky spomínané technológie a štandardy referencovať oproti svetovým štandardizačným inštitúciám. Nové skratky nie sú nové formáty ani middleware protokoly = sú to konkrétne impemementácie. Stanovisko treba zistit na PS

V rámci novelizácie Výnosu o štandardoch ISVS navrhujeme realizovať nasledovné zmeny:

  • vyššie uvedené zásady formálne popísať v novej prílohe Výnosu, ktorá bude konkretizovať:
    • terminológiu,
    • spôsob popisu údajov,
    • formáty údajov,
    • požiadavky na prepojiteľnosť údajov,
    • spôsoby sprístupnenia,
    • prácu s metadátami / technické štanrady pre katalógy,
    • minimálne požiadavky na OpenData formu sprístupnenia
  • upraviť časť Výnosu týkajúcu sa Dátových štandardov tak, aby pre každé sprístupňovanie údajov vrátane OpenData bolo povinné použitie prílohy z predošlého bodu
  • pre tieto normatívne texty vytvoriť Metodický pokyn (alebo v rámci Metodického pokynu ku Výnosu) obsahujúci:
    • referencie na uvádzané technické špecifickácie (formátov, protokolov),
    • väzby na ďalšie záväzné dokumenty (napr. zákony) a aktivity SR v tejto oblasti,
    • popis odporúčaných spôsobov realizácie predpísaných požiadaviek,
    • metodické vysvetlenie OpenData, linkovateľnosti údajov a cieľov v týchto oblastiach
  • samostatne spracovať Metodický pokyn: požiadavky na OpenData Ready informačné systémy

Riešené nebudú nasledovné témy:

  • ktoré povinné osoby majú sprístupniť ktoré dátové zdroje,
  • interné procesy povinnej osoby, ktoré je potrebné realizovať na sprístupnenie údajov
  • funkčnosť a parametre centrálnej platformy pre OpenData (portál)

Technické štandardy pre Sprístupňovanie strojovo spracovateľných dát

Štandardom pre sprístupňovanie strojovo spracovateľných dát je formát XML s popísanou štruktúrou XML pomocou jazyka XSD vrátane popisov sémantiky jednotlivých XML elementov a atribútov.

V prípade že existujú, je vhodné pri tvorbe štruktúry XML využiť dátové prvky definované Výnosom MF SR.

Dáta sa sprístupňujú na definovanom nemennom URL konkrétnymi spôsobmi.

 

Technické štandardy pre Prepojiteľnosť strojovo spracovateľných dát

 

Prepojiteľné - Linkované dáta

Technické štandardy pre Dátový katalóg

Je otázne, či je tento paragraf potrebný, ale keďže sa naň odkazujeme v nasledujúcom asi by sa mal zadefinovať.

Viac v časti dátový katalóg

Technické štandardy pre Otvorené dáta - OpenData

Otvorené dáta sa zverejňujú dvoj-krokovo.

  1. Zverejnenie/aktualizácia dátového zdroja na konkrétnej jednoznačnej URL. Minimálna úroveň "hocičo" zo zoznamu formátov pre zverejňovanie odporúčaná úroveň je dosiahnut stav popisovaný v prechádzajúcom paragrafe "Technické štandardy pre sprístupňovanie a prepojiteľnosť strojovo spracovateľných dát". Toto je na diskusiu v PS3 - striktné požadovanie strojovo spracovateľných formátov by malo prísť až v budúcnosti keď bude k dispozícii infraštruktúra a skúsenosti.
  2. Zavedenie/aktualizácia záznamu a popisných metadát v katalógu verejných dát
  • No labels