Child pages
  • Štúdia - riešenie pre Open Data Node
Skip to end of metadata
Go to start of metadata

Toto je len kópia

Táto verzia sa využíva ako pracovná verzia SK verzie textu. Oficiálna verzia tohto dokumentu pre verejnosť nájdete na OpenData.sk portáli: https://opendata.sk/liferay/open-data-node .

English version of this Wiki page is here.

Štúdia Open Data Node

Kontext a východiská

Cieľom je navrhnúť jednoduchý a autonómny systém, ktorý zbiera, spracúva, uchováva, prezentuje a poskytuje dokumenty (a metadáta k nim) - to všetko na technologicky neutrálnom základe, na princípe otvorenej architektúry a použitím otvorených štandardov pre čo najväčšiu a najjednoduchšiu použiteľnosť.

Big Picture

Pre lepšie pochopenie témy a štruktúry problému načrtneme celkový obraz - ideu resp. víziu riešenia ako celku.

Component Model

Meno komponentu

Účel

Poznámka

#Data Harvester

Automatická a poloautomatická aktualizácia dát

Rôzne protokoly a techniky: OAI-PMH, web download, offline files, user-upload, ...

#Open Data Enhancer

Spracovanie vstupných dát: OCR, automatická extrakcia metadát, klasifikácia, kontextualizácia a obohatenie

 

#Open Data Repository

Centrálne úložisko dát, metadát a indexov pre open data

 

#Open Data Services & API

Dátové služby pre aplikácie tretej strany

 

#Portal & Applications

Portál ako organizačný a technický nástroj pre komunity

Základná funkcionalita pre vyhľadávanie a prezentáciu open data dokumentov, ...

Data Harvester

Hlavnou úlohou tohto komponentu je kŕmiť systém surovými dátami (dokumentami) na pravidelnej báze - pridávať nové aj aktualizovať staré.

  • zbiera dáta z definovaných zdrojov
    • podporuje protokoly ako OAI-PMH, HTTP/HTTPS, FTP, file-system
    • podporuje všetky bežné obrazové a textové formáty (JPG, TIFF, TXT, PNG, PDF, DOC, HTML, XML, ...)
  • robí základnú validáciu, transformáciu a konverziu do mediačných (výmenných, pracovných) formátov
  • definuje (pridáva) technické a organizačné metadáta - zdroj, čas zberu, pôvodcu, formát, veľkosť, ...
  • scheduler pre naplánovanie (pravidelného) zberu dát, pre každý zdroj
  • umožňuje jednorázový, okamžitý zber

Open Data Enhancer

Komponent má zo vstupného dokumentu získať maximálne množstvo relevantných informácií (metadát) a vyhodnotiť ich kvalitu (úplnosť, presnosť, relevanciu, ...)

  • ak ide o netextový dokument, pokúsi sa rozpoznať textovú zložku (subkomponent OCR)
  • klasifikuje dokument podľa typu (obsahu), napr. zmluva, faktúra, ...
  • v texte dokumentu (aj získanom cez OCR) rozpozná základné (obsahové) atribúty dokumentu (podľa typu dokumentu) - ide o "text mining" a "text recognition" resp. vyťažovanie dokumentov
  • pomocou "spellcheckera" a definovaných slovníkov (registrov, autorít) doplní alebo opraví metadáta

Open Data Repository

Centrálne úložisko pre dáta, metadáta (obsahové, technické aj prevádzkové) a indexy (pre fulltextové aj fazetové vyhľadávanie). Skladá sa z

  • úložiska dát (repozitory) - uložený je priamo dokument alebo odkaz na neho
  • úložiska metadát (repozitory), napr. vo formáte RDF
  • indexačný server (podpora pre fulltext, fazety, triedenie, filtrovanie)
  • image server - podľa potreby na prípadné uloženie a poskytovanie veľkých obrazových dát

Okrem toho umožňuje

  • prideľovanie a správu jednoznačného a perzistentného ID dokumentov pre udržiavanie identity, riešenie duplicít a umožnenie vnútorných a vonkajších väzieb medzi dokumentami.
  • management & monitoring, tj. správu a údržba dát na úrovni správcu systému

Open Data Services & API

Služby a otvorené rozhrania pre podporu aplikácií tretích strán, tvorbu mashupov atd. nad všetkými spracovanými dátami v systéme.

Portal & Application

Webové používateľské rozhranie, jeho základné úlohy sú:

  • zakladne informacie o aktivite Open Data
  • sprístupniť všetky spracované dokumenty na základnej úrovni:
    • vyhľadať dokumenty - browsovaním, fulltextom, filtrovaním, vyhľadávaním podľa metadát
    • zobraziť dokumenty (a metadata) vo vhodnom pohľade - zoznam, detail, tabulka (neskor mapa, casova os, graf, ...)
  • komunitný a kolaboračný nástroj pre všetky zúčastnené strany (poskytovateľov dát, poskytovateľov aplikácií, používateľov aplikácií, prispievateľov, širokú verejnosť, ...)
  • poskytovat zakladne zoznamy a statistiky - zdroje a ich kvalita, prispievatelia, trendy, najziadanejsie/najdiskutovanejsie dokumenty, najaktivnejsie skupiny...
  • umozni spatnu vazbu na dokumenty a zdroje, vratane systemu pre opravy a doplnenie metadat (napr. crowd sourcing)

Odkazy

Automatická extrakcia metadát zo zverejňovaných dokumentov,
Otvorená verejná správa OpenData.sk

  • No labels