Big Picture

Pre lepšie pochopenie témy a štruktúry problému načrtneme celkový obraz - ideu resp. víziu riešenia ako celku.

Component Model

Meno komponentu	Účel	Poznámka
Data Harvester	Automatická a poloautomatická aktualizácia dát	Rôzne protokoly a techniky: OAI-PMH, web download, offline files, user-upload, ...
Open Data Enhancer	Spracovanie vstupných dát: OCR, automatická extrakcia metadát, klasifikácia, kontextualizácia a obohatenie
Open Data Repository	Centrálne úložisko dát, metadát a indexov pre open data
Open Data Services & API	Dátové služby pre aplikácie tretej strany
Portal & Applications	Portál ako organizačný a technický nástroj pre komunity	Základná funkcionalita pre vyhľadávanie a prezentáciu open data dokumentov, ...

Data Harvester

Hlavnou úlohou tohto komponentu je kŕmiť systém surovými dátami (dokumentami) na pravidelnej báze - pridávať nové aj aktualizovať staré.

zbiera dáta z definovaných zdrojov
- podporuje protokoly ako OAI-PMH, HTTP/HTTPS, FTP, file-system
- podporuje všetky bežné obrazové a textové formáty (JPG, TIFF, TXT, PNG, PDF, DOC, HTML, XML, ...)
robí základnú validáciu, transformáciu a konverziu do mediačných (výmenných, pracovných) formátov
definuje (pridáva) technické a organizačné metadáta - zdroj, čas zberu, pôvodcu, formát, veľkosť, ...
scheduler pre naplánovanie (pravidelného) zberu dát, pre každý zdroj
umožňuje jednorázový, okamžitý zber

Open Data Enhancer

Komponent má zo vstupného dokumentu získať maximálne množstvo relevantných informácií (metadát) a vyhodnotiť ich kvalitu (úplnosť, presnosť, relevanciu, ...)

ak ide o netextový dokument, pokúsi sa rozpoznať textovú zložku (subkomponent OCR)
klasifikuje dokument podľa typu (obsahu), napr. zmluva, faktúra, ...
v texte dokumentu (aj získanom cez OCR) rozpozná základné (obsahové) atribúty dokumentu (podľa typu dokumentu) - ide o "text mining" a "text recognition" resp. vyťažovanie dokumentov
pomocou "spellcheckera" a definovaných slovníkov (registrov, autorít) doplní alebo opraví metadáta

Open Data Repository

Centrálne úložisko pre dáta, metadáta (obsahové, technické aj prevádzkové) a indexy (pre fulltextové aj fazetové vyhľadávanie). Skladá sa z

úložiska dát (repozitory) - uložený je priamo dokument alebo odkaz na neho
úložiska metadát (repozitory), napr. vo formáte RDF
indexačný server (podpora pre fulltext, fazety, triedenie, filtrovanie)
image server - podľa potreby na prípadné uloženie a poskytovanie veľkých obrazových dát

Okrem toho umožňuje

prideľovanie a správu jednoznačného a perzistentného ID dokumentov pre udrziavanie identity, riesenie duplicít a umožnenie vnútorných a vonkajších väzieb medzi dokumentami.
management & monitoring, tj. správu a údržba dát na úrovni správcu systému

Open Data Services & API

Služby a otvorené rozhrania pre podporu aplikácií tretích strán, tvorbu mashupov atd. nad všetkými spracovanými dátami v systéme.

Portal & Application

Webové používateľské rozhranie, jeho základné úlohy sú:

zakladne informacie o aktivite Open Data
sprístupniť všetky spracované dokumenty na základnej úrovni:
- vyhľadať dokumenty - browsovaním, fulltextom, filtrovaním, vyhľadávaním podľa metadát
- zobraziť dokumenty (a metadata) vo vhodnom pohľade - zoznam, detail, tabulka (neskor mapa, casova os, graf, ...)
komunitný a kolaboračný nástroj pre všetky zúčastnené strany (poskytovateľov dát, poskytovateľov aplikácií, používateľov aplikácií, prispievateľov, širokú verejnosť, ...)
poskytovat zakladne zoznamy a statistiky - zdroje a ich kvalita, prispievatelia, trendy, najziadanejsie/najdiskutovanejsie dokumenty, najaktivnejsie skupiny...
umozni spatnu vazbu na dokumenty a zdroje, vratane systemu pre opravy a doplnenie metadat (napr. crowd sourcing)

Odkazy

Automatická extrakcia metadát zo zverejňovaných dokumentov,

Prvá etapa - definícia formátov pre zdieľanie informácií a výber vhodnej OSS technológie

Navrhované riešenie obsahuje open source balík a metodiku nasadenia, poskytujúcu organizácii (ministerstvo, obec, nezisková organizácia, súkromná firma) nástroj na zverejňovanie dát z interných systémov. V prvej fáze sa zabezpečuje publikovanie verejných informácií pomocou otvorených štandardov (napr. verejne dostupné zmluvy, príjmové a nákladové položky, účtovné dáta, vyhlášky atď.)

Každá organizácia si sama zvolí aké dáta bude publikovať a v akých intervaloch ich bude aktualizovať. Veríme, že otvorená komunikácia medzi organizáciami a verejnosťou vytvorí rozumný kompromis medzi uzavretosťou a otvorenosťou informácií.

Momentálne je to práve oblasť katalogizácie knižničných a kultúrnych diel, kde zverejňovanie digitálnych dokumentov dosahuje svoj vrchol. Ak by sme však myšlienku scanu obrazu v galérii zamenili za scan faktúry na mestskom zastupiteľstve, vieme jednoducho aplikovať výsledky výskumu a vývoja z kultúrnej oblasti práve na tématiku Open Data. Preto napríklad z kultúrnej oblasti preberáme zadefinovaný komunikačný štandard Open Archives InitiativeProtocol (OAI-PMH). Tento komunikačný štandard je vhodný pre tzv. read-only zverejňovanie údajov.

Riešenie tiež poskytuje prístup k údajom pre aplikácie tretích strán, aby sa zverejnené Open Data využívali viac a lepšie. Aj v tomto prípade ide o prevzatie overených konceptov z iných sfér (Web 2.0, sociálne siete, ...).

Obdobne je pre dáta vstupujúce do riešenia zadefinované aj otvorené rozhranie určené na vývoj nástrojov na spracovanie tých dát, ktoré používajú špecifické a málo rozšírené formáty.

Týmto spôsobom je možné poskladať riešenie projektu OpenData z existujúcich a overených open source technológií a štandardov a prevádzkovať ho tak aj v najväčších slovenských organizáciach (ministerstvá, veľké firmy).

Súčasťou riešenia je aj analýza bezpečnosti a vypracovanie doporučení pre nasadenie riešenia v rôznych druhoch organizácií. Referenčná implementácia riešenia bude nasadená vo vybraných subjektoch a následne bude otestovaná a certifikovaná.

Predpokladáme, že sa nám pre potreby riešenia OpenData podarí využiť potenciál existujúceho slovenského open source balíka Custodea, ktorý rieši problematiku digitálneho zverejňovania v kultúrnom sektore.

Architektúra riešenia

Ako to funguje

Nainštalovaný balík (open source) aplikácií - Open Data Node - zbiera dokumenty a metadáta o nich, spracúva ich a poskytuje verejnosti, inštitúciám aj ďalším aplikáciám.

Dokument sa do Open Data Node môže dostať viacerými spôsobmi:
- Používateľ vloží dokumenty a vyplní pre ne metadáta cez webové rozhranie.
- Open Data Node, prostredníctvom Harvestera monitoruje definované zdroje a automaticky zbiera a spracúva (OCR, extrakcia metadát, konverzia, previazanie s registrami atď.) zverejnené dokumenty.
- Autorizovaní používatelia kontrolujú, komentujú a dávajú prípadné návrhy na opravu či úpravu zozbieraných dokumentov, čím vytvárajú obsah vo vyššej kvalite, s prípadnými anotáciami a doplnenými väzbami (referenciami).

Zdrojom dokumentov (a dát vo všeobecnosti) sú všetky zverejnené údaje v rámci informačných systémov inštitúcií a webových stránok - verejná správa, štátna správa, tretí sektor, ale aj vybrané informácie zo súkromných zdrojov. Väčšina v súčasnosti publikovaných faktúr z verejného sektora či príspevkových organizácií je zverejnená v podobe skenovaných faktúr. Tieto sú kandidátom na vyťažovanie pomocou OCR, alebo výstupov z účtovníctva, ktoré vie harvester spracovať priamo.

Dôležitým zdrojom informácií sú verejné registre, ako je Obchodný register, registre Štatistického úradu a pod., ktoré umožnia referenčnú integritu zozbieraných dokumentov a ich metadát.

Sprístupnenie zozbieraných dát má niekoľko úrovní:
- poskytovanie pre harvesting (OAI-PMH, FTP, HTTP, ...) ďalšími systémami (napr. aj iné Open Data Node)
- poskytovanie formou služieb, cez štandardné rozhrania ako sú WebServices, REST a pod. v rôznych formátoch (XML, JSON, ...) pre maximálne zjednodušenie aplikácií tretích strán, ktoré budú chcieť využívať zozbierané Open Data
- poskytovanie dát a služieb s pridanou hodnotou cez web rozhranie (browsovanie)
- dávkový export (vybranej podmnožiny) metadát do zvoleného formátu (RDF/XML, SKOS, DublinCore)

Prezentácia zozbieraných dát: samotný Open Data Node bude prezentovať v ňom uložené (evidované) dáta niekoľkými spôsobmi:
- ako jednoduchý zoznam "odkazov" ktoré vyhovujú zadanému filtru (google-like)
- fazetové browsovanie / filtrovanie (podľa rôznych kategórií - pôvod dokumentu, typ dokumentu, dátum dokumentu atď.)
- zobrazenie na mape (pre dokumenty ktoré sú previazané na geografickú lokalitu, napr. stavebné povolenie, sídlo firmy atď)
- zobrazenie na časovej osi (pre dokumenty ktoré obsahujú časový údaj, napr. splatnosť faktúry, dátum podpisu zmluvy)
- tabuľka s vybranými stĺpcami, vrátane možnosti exportu do formátu CSV (Excel a pod.) alebo XML

Portál: zoznam inštitúcií pripojených k iniciatíve treba evidovať v zozname, pre začiatok bude použité jednoduchšie riešenie vo forme Wiki alebo blogu, neskôr je ale potrebné zaviesť formalizovaný adresár
Otvorená architektúra: jednotlivé komponenty architektúry, ako aj jednotlivé inštalácie systému (Open Data Node) sú voľne integrovateľné do hierarchie (kaskády, ...), čím sa dosiahne maximálna flexibilita čo do typu a účelu zbieraných dát (segmentové resp. sektorové systémy, napríklad pre zdravotnícke dáta, školstvo, regionálne dáta atď.) a tiež čo do spôsobu (pred-)spracovania vstupných dát - OCR, extrakcia, formáty, veľkosti, validácia, limity.

Ilustrácia zapojenia viacerých Open Data Node do hierarchie

OpenData

Štúdia Open Data Node - Projekty

Navigation Navigation

Novinky Novinky

Štúdia Open Data Node

Kontext a východiská