- Created by Hanečák Peter, last modified on Jul 22, 2016
Dňa 12.7.2016 sa v Londýne konal prvý ročník konferencia Connected Data 2016. Termín "connected" zvolili preto, že konferencia bola o rôznej "znôške" údajov (Open, Linked, Big, ...) ale zameriavala sa na Semantic Web, Linked Data a grafy. Nuž a tieto druhy údajov sú o vzťahoch resp. prepojeniach, a preto "connected".
Prezentácie sú k dispozícii na SlideShare: http://www.slideshare.net/ConnectedDataLondon .
K Open Data
Christopher Gutteridge, University of Southampton
Christopherova prednáška sa spomedzi ostatných najviac venovala téme otvorených údajov. Hovoril v nej o tom, ako ich univerzita publikuje Linked Open Data a o ich úsilí o silnú automatizáciu tohto procesu, okrem iného aj pomocou "auto-discovery": /.well-known/openorg
(viď https://www.iana.org/assignments/well-known-uris/well-known-uris.xml). Automatizácia totiž pri publikovaní údajov masívne redukuje náklady na zamestancov (pozn. autora: čo je presne aj motiváciou projektu COMSODE Open Data Node).
Spomenul aj nám známe Open Data Bingo (zoznam najčastejších výhovoriek, prečo údaje nezdieľať) alebo tiež formulku na výpočet pravdepodobnosti použitia nejakého otvoreného datasetu.
Upozornil tiež, že aj keď sú Linked Data o prepájaní, iekedy sa správajú ako komixy: mixovať sa dajú, ale ak pomixujeme dokopy úplne všetky, tak nemusia dávať zmysel. Ako ilustračný príklad si predstavme všetky Marvel postavy a príbehy zlepené do jedného filmu.
A ukázal tiež napr. zábavnejšie využitie LIDAR údajov z data.gov-uk v Minecraft-e: http://www.minecraftworldmap.com/worlds/xO3X4/full#/4469/64/-1806/-3/0/0
(prezentácia: http://www.slideshare.net/ConnectedDataLondon/autodiscovery-orthe-long-tail-of-open-data)
K iným
David Meza, NASA
David Meza je šéfom Knowledge Management v NASA a hovoril o príležitostiach a požiadavkách, pri ktorých uplatňujú Linked Data:
V prednáške pod "search" myslí najmä "enterprise search" a ako typický problém uvádza vyhľadávanie dokumentov o "mercury", ktoré má v NASA dokonca tri významy: planéta, chemický prvok a názov projektu.
Cieľom vyhľadávania je umožniť nájsť informáciu (zhruba 30% výskumu sa robí duplicitne, lebo ľudia predchádzajúci výskum skrátka nenašli) alebo ju nájsť rýchlejšie (čo niekedy trvalo týžne a obnášalo napr. aj fyzické návštevy pracovníkov na dôchodku, dnes trvá hodiny).
Ich search využíva neo4j, v ktorom udržujú informácie o dokumentoch a vzťahoch medzi nimi. Grafové zobrazenie týchto vzťahov následne pracovníkom uľahčuje hľadanie: súvisiace dokumenty sú zhluknuté blízko pri sebe.
(prezentácia: http://www.slideshare.net/ConnectedDataLondon/knowledge-architecture-its-importance-to-an-organization)
Dan Murphy, Financial Times
Dan sa venuje DevOps a sémanickým metaúdajom a rozprával o tom, ako prebieha vývoj nového portálu Financial Time (beta už dnes, ostrá prevádzka zhruba od januára 2017), ktorý z dnešného jedného monilitu nadobudne podobu mnohých komponentov a mikroservisov pri vývoji ktorých používajú Linked Data (linkovanie článkov, firiem a tiež "augmentovanie" údajov z mohých 3rd party zdrojov), koncept "API first" a iné.
Na začiatku používali len Java a OpenRDF (Sesame), neskôr časť kódu zahodili a prepísali pričom čiastočne prešli na Go a namiesto triplestore používajú neo4j. O.i. odporučil Go s knižnicou neoism keďže zistili, že Java + neo4j nie je veľmi dobrá kombinácia.
(prezentácia: http://www.slideshare.net/ConnectedDataLondon/how-go-and-neo4j-enabled-the-ft-to-deliver-at-speed)
Szymon Klarman, Brunel University
Problém ktorý rieši Szymon s kolegami sa týka obrovského množstva vedeckých článkov, ktoré v poslednom období vznikajú a ktoré už dnes nik nestihá čítať všetky. Problém je aj s reprodukovateľnosťou experimentov - špecificky v ich doméne biochémie je takmer 50% experimentov popísaných v prácach neverifikovateľných, čo ohrozuje samotnú podstatu vedy.
Z publikovaných článkov v ich doméne teda vrámci svojho projektu extrahujú výroky (statements), vypočítavajú mieru spoľahlivosti a mieru pravdivosti daných výrokov a pre viaceré výroky o tom istom (ktoré si prípadne aj protirečia) následne hľadajú rozuzlenie - ktorý výrok je naozaj pravdivý. Toto všetko v jadre používa Linked Data, na svoje si však príde aj "robo scientist" (ktorý overuje konfliktné tvrdenia o interakciách látok tak, že rovno vykoná pokus a automaticky reportuje výsledok). Kontinuálny proces "update-assembly" je dôležitý, keďže nové publikácie s novými tvrdeniami pribúdajú priebežne.
(prezentácia: http://www.slideshare.net/ConnectedDataLondon/knowledge-assembly-at-scale-with-semantic-and-probabilistic-techniques)
Borislav Popov, Ontotext
V tejto prednáške vyjadril Borislav názor, že "semantics" by mala ísť ruka v ruke s "text extraction and analytics". A práve tomu sa aj venuje firma Ontotext. Ako príklady využitia potom ukázal:
- News On Web: http://now.ontotext.com/
- Offshore Leaks Linked Data: http://data.ontotext.com/
(prezentácia: http://www.slideshare.net/ConnectedDataLondon/powerful-information-discovery-with-big-knowledge-graphs-the-offshore-leaks-case)
Dr. Jesús Barrasa, Neo4j
Dr. Barrasa veľmi pekne vysvetlil rozdiel medzi triplestorom a grafovou databázou: ak nepoužívame explicitnú sémantiku (či už inferenčné pravidlá alebo RDFS resp. OWL), tak triplestore používame iba ako grafovú databázu.
Zjednodušene: triplestore bez sémantiky je grafovou databázou a grafová databáza s pridanou sémantikou sa stáva triplestorom (aj keď možno bez SPARQL). Tento druhý prípad nakoniec aj ukázal na 10-minútovom deme, kde pomocou neo4j pridal nad údajmi o článkoch (najmä ich keywordoch) explicitnú sémantiku v podobe nájdenia vzťahov "same as", "narrower" a "broader" a ich následnom využití pri vyhľadávaní.
(prezentácia: http://www.slideshare.net/ConnectedDataLondon/explicit-semantics-in-graph-dbs-driving-digital-transformation-with-neo4j)
Paul Rissen, BBC
BBC používa Linked Data od roku 2010 a o tom bola prednáška Paula Rissena.
Po prvý krát použili Linked Data a triplestore počas MS vo futbale v roku 2010. Cieľ bol vcelku jednoduchý: mať portál v ktorom bude stránka o každom mužstve, každej krajine, každom hráčovi, každom zápase. A to všetko navzájom pekne poprepájané na základe súvislostí. V roku 2012 koncept použili a vylepšili počas olympijských hier.
Dnes sú Linked Data základom redakčného systému a portálov BBC. V budúcnosti Paul sníva o tom, že každá relácia BBC bude mať svoje API.
(prezentácia: http://www.slideshare.net/ConnectedDataLondon/ten-years-of-linked-data-at-the-bbc)
- No labels