Big Picture

Pre lepšie pochopenie témy a štruktúry problému načrtneme celkový obraz - ideu resp. víziu riešenia ako celku.

Component Model

Meno komponentu	Účel	Poznámka
Data Harvester	Automatická a poloautomatická aktualizácia dát	Rôzne protokoly a techniky: OAI-PMH, web download, offline files, user-upload, ...
Open Data Enhancer	Spracovanie vstupných dát: OCR, automatická extrakcia metadát, klasifikácia, kontextualizácia a obohatenie
Open Data Repository	Centrálne úložisko dát, metadát a indexov pre open data
Open Data Services & API	Dátové služby pre aplikácie tretej strany
Portal & Applications	Portál ako organizačný a technický nástroj pre komunity	Základná funkcionalita pre vyhľadávanie a prezentáciu open data dokumentov, ...

Data Harvester

Hlavnou úlohou tohto komponentu je kŕmiť systém surovými dátami (dokumentami) na pravidelnej báze - pridávať nové aj aktualizovať staré.

zbiera dáta z definovaných zdrojov
- podporuje protokoly ako OAI-PMH, HTTP/HTTPS, FTP, file-system
- podporuje všetky bežné obrazové a textové formáty (JPG, TIFF, TXT, PNG, PDF, DOC, HTML, XML, ...)
robí základnú validáciu, transformáciu a konverziu do mediačných (výmenných, pracovných) formátov
definuje (pridáva) technické a organizačné metadáta - zdroj, čas zberu, pôvodcu, formát, veľkosť, ...
scheduler pre naplánovanie (pravidelného) zberu dát, pre každý zdroj
umožňuje jednorázový, okamžitý zber

Open Data Enhancer

Komponent má zo vstupného dokumentu získať maximálne množstvo relevantných informácií (metadát) a vyhodnotiť ich kvalitu (úplnosť, presnosť, relevanciu, ...)

ak ide o netextový dokument, pokúsi sa rozpoznať textovú zložku (subkomponent OCR)
klasifikuje dokument podľa typu (obsahu), napr. zmluva, faktúra, ...
v texte dokumentu (aj získanom cez OCR) rozpozná základné (obsahové) atribúty dokumentu (podľa typu dokumentu) - ide o "text mining" a "text recognition" resp. vyťažovanie dokumentov
pomocou "spellcheckera" a definovaných slovníkov (registrov, autorít) doplní alebo opraví metadáta

Open Data Repository

Centrálne úložisko pre dáta, metadáta (obsahové, technické aj prevádzkové) a indexy (pre fulltextové aj fazetové vyhľadávanie). Skladá sa z

úložiska dát (repozitory) - uložený je priamo dokument alebo odkaz na neho
úložiska metadát (repozitory), napr. vo formáte RDF
indexačný server (podpora pre fulltext, fazety, triedenie, filtrovanie)
image server - podľa potreby na prípadné uloženie a poskytovanie veľkých obrazových dát

Okrem toho umožňuje

prideľovanie a správu jednoznačného a perzistentného ID dokumentov pre udrziavanie identity, riesenie duplicít a umožnenie vnútorných a vonkajších väzieb medzi dokumentami.
management & monitoring, tj. správu a údržba dát na úrovni správcu systému

Open Data Services & API

Služby a otvorené rozhrania pre podporu aplikácií tretích strán, tvorbu mashupov atd. nad všetkými spracovanými dátami v systéme.

Portal & Application

Webové používateľské rozhranie, jeho základné úlohy sú:

zakladne informacie o aktivite Open Data
sprístupniť všetky spracované dokumenty na základnej úrovni:
- vyhľadať dokumenty - browsovaním, fulltextom, filtrovaním, vyhľadávaním podľa metadát
- zobraziť dokumenty (a metadata) vo vhodnom pohľade - zoznam, detail, tabulka (neskor mapa, casova os, graf, ...)
komunitný a kolaboračný nástroj pre všetky zúčastnené strany (poskytovateľov dát, poskytovateľov aplikácií, používateľov aplikácií, prispievateľov, širokú verejnosť, ...)
poskytovat zakladne zoznamy a statistiky - zdroje a ich kvalita, prispievatelia, trendy, najziadanejsie/najdiskutovanejsie dokumenty, najaktivnejsie skupiny...
umozni spatnu vazbu na dokumenty a zdroje, vratane systemu pre opravy a doplnenie metadat (napr. crowd sourcing)

Odkazy

Automatická extrakcia metadát zo zverejňovaných dokumentov,

OpenData

Štúdia Open Data Node

Navegación Navegación

Visor de contenido web Visor de contenido web