Ut, 14 jún 2011 17:47:00 +0200
Kontext a východiská
Cieľom bolo navrhnúť jednoduchý a autonómny systém, ktorý zbiera, spracúva, uchováva, prezentuje a poskytuje dokumenty (a metadáta k nim) - to všetko na technologicky neutrálnom základe, na princípe otvorenej architektúry a použitím otvorených štandardov pre čo najväčšiu a najjednoduchšiu použiteľnosť.
Štúdia v súčasnosti prešla do štádia realizície v rámci výskumného programu FP7 v projekte COMSODE a aktuálne informácie o Open Data Node môžete nájsť na adrese http://opendatanode.org/ .
Big Picture
Pre lepšie pochopenie témy a štruktúry problému načrtneme celkový obraz - ideu resp. víziu riešenia ako celku.
Component Model
Meno komponentu | Účel | Poznámka |
Data Harvester | Automatická a poloautomatická aktualizácia dát | Rôzne protokoly a techniky: OAI-PMH, web download, offline files, user-upload, ... |
Open Data Enhancer | Spracovanie vstupných dát: OCR, automatická extrakcia metadát, klasifikácia, kontextualizácia a obohatenie | |
Open Data Repository | Centrálne úložisko dát, metadát a indexov pre open data | |
Open Data Services & API | Dátové služby pre aplikácie tretej strany | |
Portal & Applications | Portál ako organizačný a technický nástroj pre komunity | Základná funkcionalita pre vyhľadávanie a prezentáciu open data dokumentov, ... |
Data Harvester
Hlavnou úlohou tohto komponentu je kŕmiť systém surovými dátami (dokumentami) na pravidelnej báze - pridávať nové aj aktualizovať staré.
- zbiera dáta z definovaných zdrojov
- podporuje protokoly ako OAI-PMH, HTTP/HTTPS, FTP, file-system
- podporuje všetky bežné obrazové a textové formáty (JPG, TIFF, TXT, PNG, PDF, DOC, HTML, XML, ...)
- robí základnú validáciu, transformáciu a konverziu do mediačných (výmenných, pracovných) formátov
- definuje (pridáva) technické a organizačné metadáta - zdroj, čas zberu, pôvodcu, formát, veľkosť, ...
- scheduler pre naplánovanie (pravidelného) zberu dát, pre každý zdroj
- umožňuje jednorázový, okamžitý zber
Open Data Enhancer
Komponent má zo vstupného dokumentu získať maximálne množstvo relevantných informácií (metadát) a vyhodnotiť ich kvalitu (úplnosť, presnosť, relevanciu, ...)
- ak ide o netextový dokument, pokúsi sa rozpoznať textovú zložku (subkomponent OCR)
- klasifikuje dokument podľa typu (obsahu), napr. zmluva, faktúra, ...
- v texte dokumentu (aj získanom cez OCR) rozpozná základné (obsahové) atribúty dokumentu (podľa typu dokumentu) - ide o "text mining" a "text recognition" resp. vyťažovanie dokumentov
- pomocou "spellcheckera" a definovaných slovníkov (registrov, autorít) doplní alebo opraví metadáta
Open Data Repository
Centrálne úložisko pre dáta, metadáta (obsahové, technické aj prevádzkové) a indexy (pre fulltextové aj fazetové vyhľadávanie). Skladá sa z
- úložiska dát (repozitory) - uložený je priamo dokument alebo odkaz na neho
- úložiska metadát (repozitory), napr. vo formáte RDF
- indexačný server (podpora pre fulltext, fazety, triedenie, filtrovanie)
- image server - podľa potreby na prípadné uloženie a poskytovanie veľkých obrazových dát
Okrem toho umožňuje
- prideľovanie a správu jednoznačného a perzistentného ID dokumentov pre udrziavanie identity, riesenie duplicít a umožnenie vnútorných a vonkajších väzieb medzi dokumentami.
- management & monitoring, tj. správu a údržba dát na úrovni správcu systému
Open Data Services & API
Služby a otvorené rozhrania pre podporu aplikácií tretích strán, tvorbu mashupov atd. nad všetkými spracovanými dátami v systéme.
Portal & Application
Webové používateľské rozhranie, jeho základné úlohy sú:
- zakladne informacie o aktivite Open Data
- sprístupniť všetky spracované dokumenty na základnej úrovni:
- vyhľadať dokumenty - browsovaním, fulltextom, filtrovaním, vyhľadávaním podľa metadát
- zobraziť dokumenty (a metadata) vo vhodnom pohľade - zoznam, detail, tabulka (neskor mapa, casova os, graf, ...)
- komunitný a kolaboračný nástroj pre všetky zúčastnené strany (poskytovateľov dát, poskytovateľov aplikácií, používateľov aplikácií, prispievateľov, širokú verejnosť, ...)
- poskytovat zakladne zoznamy a statistiky - zdroje a ich kvalita, prispievatelia, trendy, najziadanejsie/najdiskutovanejsie dokumenty, najaktivnejsie skupiny...
- umozni spatnu vazbu na dokumenty a zdroje, vratane systemu pre opravy a doplnenie metadat (napr. crowd sourcing)
Odkazy
Automatická extrakcia metadát zo zverejňovaných dokumentov,