Trend konferencie: Open Data Forum

Má OPEN DATA potenciál v slovenskom biznise?

03. december 2013 / Kempinski Hotel River Park Bratislava

home page: http://konferencie.etrend.sk/ine_podujatia/open-data-forum.html



Nielen poznámky od Petra Hanečáka

V skratke

Dosť sme sa dozvedeli. Kopa vecí sa prelína a dopĺňa. Sú ale aj nedostatky, nejasnosti a dokonca aj podozrenia a konflikty.

Úvod

V úvode p. Pellegrini (štátny tajomník MF SR, Digitálny líder SR) spomenul niekoľko praktických možností využitia otvorených údajov (OpenData, OD) ktore si vie predstaviť n Slovensku:

  • smart phone ma upozorní pri vstupe do reštaurácie na v nej nedávno zistené hygienické nedostatky
  • kontrola kriminality v mieste, kde zvažujem kúpu bytu
  • atď.

Tiež upozornil, že - aj keď sa to nezdá - Slovensko je vo svete leadrom OpenData, keďže napríklad len málo krajín má na internete dostupný obchodný register tak, ako mi. A zdôraznil ďalej, že OpenData budú jednou z priorít HORIZON 2020.

P. Klačan (člen predstavenstva, DATALAN) priblížil bližšie, o čom sú OpenData: že to nie je len téma pre úrady, ale aj pre firmy, keďže tie tiež majú množstvo užitočných údajov. A ukázal príklady OpenData aplikácií: GPS, česká mapa kriminality (mapakriminality.cz), atď.

P. Wienk (programová riaditeľka, Aliancia Fair-play) predstavila niekoľko zaujímavých OpenData prikladov zo sveta ale aj z ich vlastnej dielne (zNasichDani.sk, Datanest) a tiež skonštatovala, že OpenData je pre Slovensko radikálna zmena mentálneho nastavenia. P. Ivantyšyn (riaditeľ, ITAPA) to po prestávke preformuloval ako "na Slovensko prichádza tsunami OpenData".

P. Illek (SOIT) a p. Klačan spomenuli rebríček Open Data Census, v ktorom je (resp. v čase konania konferencie bolo) Slovensko na 43. mieste.

P. Kuzmová (Úrad splnomocnenca vlády pre občiansku spoločnosť) predstavila projekt COMSODE (na ktorom mám tú česť tiež spolupracovať) a p. Janota (zástupca generálneho riaditeľa, NASES) predstavil OPIS projekt eDemokracia. Predpokladá sa spolupráca oboch projektov, keďže to dáva zmysel na viacerých úrovniach, o.i. účasťou Vlády na oboch (keďže napr. MV SR je členom COMSODE konzorcia a MF SR je asociovaným partnerom).

P. Bieliková (profesor programových a informačných systémov, FIIT STU) nás oboznámila s uplatením otvorených údajov vo výskume a s úlohou "strojčekov" v našom (budúcom) informatizovanom živote.

P. Laclavik (vedecký pracovník, Ústav informatiky SAV) popísal aktuálnu realitu a víziu budúcich riešení: Existujúce služby typu Google či Bing nám pri hľadaní poskytujú ako výsledky dokumenty. Mi však nehľadáme dokumenty, mi hľadáme informácie, informácie ako odpovede na otázky ktoré kladieme. Vznikajú teda nové riešenia (IBM Watson, Google Knowledge Graph a iné), všetky však využívajú o.i. aj rôzne otvorené údaje: Project Guttenberg, Wikipedia, DBpedia, Freebase, atď. ktoré sú pre hľadanie odpovedí kľúčové. Základom je teda budovanie kvalitnej bázy otvorených údajov, voľne použiteľných a strojovo spracovateľných.

Sliepka alebo vajce?

Doteraz sme sa stretli z mnohými snahami získať údaje od úradov. Zvyčajne sa to skončí tzv. scrapovaním, keďže dôvodiť len všeobecným "lebo OpenData", "lebo to pomôže občanom aj štátu" úradníkom často nestačí a radi by vedeli "prečo to robíte", "kto vás platí" atď. A prípadne by si ešte stále radi ponechali aj právo veta a rozhodovali o tom, ktoré "apky" sú dobré a ktoré nie a treba ich vypnúť.

Podľa p. Pellegriniho je dôležité, aby firmy a občania zverejnené údaje aj používali, inak zverejňovanie nebude mať význam. S tým nemožno nesúhlasiť. Na toto neskôr nadviazali napr. p. Wienk a p. Laclavik konštatovaním, že keď štát údaje zverejní, firmy a verejnosť sa príležitosti určite chopia. P. Bieliková vyzvala prítomných skúsiť si predstaviť kombináciu 1500 študentov IT odborov a veľkého množstva dostupných otvorených datasetov - všetci si zrejme vieme predstaviť napr. niekoľko zaujímavých start-up firiem už za pár rokov.

P. Wienk aj p. Laclavik, ak to zjednoduším, dali výzvu: "štát, zverejni údaje! ľudia potom zariadia zbytok". Odporúčaním p. Bielikovej to dopľňa: treba oddeliť údaje od služieb a treba aby sa štát teraz prioritne venoval zverejňovaniu údajov.

Prekážky

Podľa p. Pellegriniho sa úrady často bránia zverejniť údaje vyzbierané za verejné prostriedky. Keďže ale práve toto sú údaje, ktoré  zverejňovať treba, je pripravený neochotné úrady (napr. Kataster) aj nútiť, a napr. aj zákonom.

Ďalšími výraznými bariérami pre využitie už aj dnes zverejnených datasetov sú (chýbajúce) licencie a nemožnosť strojového spracovania, ktoré si zaslúžia vlastnú podkapitolu (viď nižšie).

P. Bieliková spomenula aj ďalšie problémy:

  • nedostupnosť a neochota
  • nejasné pravidlá použitia
  • chýbajúca proaktivita na úradoch
  • naopak prevládajúci strach
  • kvalita údajov
  • technologické bariéry

P. Janota dodal a potvrdil, že problémom zvyčajne nie sú otvorené údaje (tie sú z technického hľadiska veľmi jednoduché) ale ľudia a ich neochota.

Rezortizmus bol spomenutý v neskoršej diskusii. K tejto otázke p. Pellegrini poznamenal, že rezortizmus tu je, bol zavedený veľmi dávna a áno, bude nutná konsolidácia pretože "načo nám je napr. 13 účtovných systémov na 13 ministerstvách?" Bude však o.i. potrebné prekonať aj tlaky etablovaných IT dodávateľov, ktorí sa konsolidácii budú brániť.

Podľa p. Ivantyšyna aktuálne nezodpovedá ponuka otvorených údajov dopytu, pretože štát nevie čo ľudia chcú. Na druhú stranu sa postupných zverejňovaním ďalších nových datasetov tento problém postupne zmenšuje.

P. Bakošová (predsedníčka, Asociácia poskytovateľov hospodárskych informácií) poukázala na doteraz nesystémový výber datasetov na data.gov.sk, ich neprehľadné zverejňovanie a nejasné smerovanie.

Licencie a strojová spracovateľnosť

Nie je jedno ako sa údaje zverejňujú. Ako by to malo byť povedali napr. p. Wienk, p. Bieliková, p. Illek a ďalší:

  • údaje môžu byť trebárs aj neúplné a a nepresné, ale musia sa zverejniť teraz (t.j. neplánovať veľké IT projekty na zvýšenie ich kvality ktoré nám prinesú výsledky len možno a len v ďalekej budúcnosti)
  • údaje nutne musia byť dostupné všetkým a za jasných podmienok (otvorená licencia)
  • údaje nutne musia byť strojovo spracovateľné
Licencie

Ak totiž napríklad opomenieme k publikovaným údajom pripojiť jasnú otvorenú licenciu, bude dataset pre malú začínajúcu firmu drahým rizikom a teda prekážkou v ďalšom biznise.
(Nuž a práve chýbajúce licenčné podmienky k datasetom na data.gov.sk nesú hlavný podiel viny na nízkom skóre vo vyššie spomínanom Open Data Census.)

Obdobne zase "nie otvorená" licencia priamo alebo nepriamo znemožní vznik aplikácií:

  • priamo môže zakázať určité špecifické použitia, napr. z dôvodu ochrany "starých zabehaných spôsobov" na základe ktorých v minulosti (a ešte dnes) na dátach zarába len malá skupina subjektov malé sumy s malým spoločenským dopadom
  • nepriamo znemožní vznik aplikácie tým, že nedovolí kombinovať údaje s údajmi z iných zdrojov na základe čoho ostanú dát a osamotené (neprelinkované - viď neskôr) a teda takmer bezcenné

P. Illek vrámci diskusie vysvetlil, že otázka licencovania je prierezová problematika ktorú by ale mohlo resp. malo zastrešiť Ministerstvo kultúry.

Strojová spracovateľnosť

P. Bieliková vysvetlila úlohu strojovej spracovateľnosti na príklade:

  • zle: dáta -> človek
    • prečo: Dnes je už dát priveľa na to, aby ich človek zvládol sám, dobre a aj rýchlo.
  • dobre: dáta -> stroj -> človek
    • prečo: Stroj predpracuje veľké množstvo údajov, predspracuje odpovede a človeku následne podsunie také dáta v takom množstve, aby mal človek šancu sa kvalifikovane rozhodnúť.

Stroj však údajom nerozumie: nevie prečítať a pochopiť naskenované dokumenty/obrázky, nevie ľahko a presne vylúštiť tabuľkové údaje z netabuľkových formátov a podobne. Potrebuje teda údaje v strojovo spracovateľnej forme: text ako text, tabuľku ako tabuľku, štruktúrované údaje v štruktúrovanej forme.

Prínosy OpenData

Medzi prínosy otvorených údajov patrí napr. zvýšenie transparentnosti a zníženie korupcie - toť doména napr. aj prednášajúcich p. Wienk p. Bakošovej: Aliancia Fair-Play sa tejto problematike venuje dlhodobo a analýza verejných dát je jedným z ich dôležitých nástrojov pri zvyšovaní transparentnosti a znižovaní korupcie v politike. Obdobne poskytovatelia hospodárskych informácií pomáhajú skvalitňovať podnikateľské prostredie aj použitím otvorených údajov o podnikateľských subjektoch.

Ďalšie prínosy sú ekonomického charakteru: p. Janota spomenul štúdie dokazujúce pozitívny vplyv publikovania otvorených údajov na HDP. P. Wienk dokonca spomenula aj konkrétnejšie čísla: 3 miliardy $ ročne (viď zrejme Open data: Unlocking innovation and performance with liquid information) či zisk Londýnskeho metra vo výške 3€ na každé 1€ vynaložené na real-time publikovanie údajov o polohe vozidiel. O.i. aj preto (ako spomenuli p. Laclavik, p. Bieliková či p. Ivantyšyn), že vďaka OpenData poskytuje verejnosť a formy rýchlešiu inováciu a lepšie palikácie ako odpovede na bežné otázky bežných ludí v ich aktuálnych konkrétnych životných situáciách.

Ak štát zverejní otvorené údaje vhodne, môžeme sa o.i. vyhnúť aj zbytočným investíciam do drahých štátnych portálov, ktoré často nakoniec nič nerobia rep. to málo čo robia robia zle. P. Bieliková spomenula príklad Katastra. A p. Wienk spomenula "čudný tender" na projekt eDemokacia. (oboje viď nižšie).

OpenData a firmy

Na úvodné informácie o OpenData vo firmách nadviazal p. Varga paralelou: Voľakedy sa zarábalo na software, dnes je množstvo tohto software Open Source. V budúcnosti teda obdobne očakáva to, že väčšina údajov bude otvorená. O.i. aj preto, že napr. aj firmy majú množstvo dát, len malá časť tejto obrovskej masy je kľúčová pre biznis firmy, ktorá ich vlastní. Dochádza k posunu paradigmy: systémy -> biznis procesy -> informácie. Väčšina údajov teda bude otvorená a len malé množstvo kľúčových informácií bude biznisom.

Príklady:

  • Orange v Kamerune zadarmo sprístupnil anonymizované údaje o migrácii používateľov mobilnýc telefónov čím prispel k lepšiemu pochopeniu šírenia malárie a teda pomohol nájsť efektívnejšie spôsoby boja proti tejto chorobe.
  • Orange spolupracuje s poisťovňami, s ktorými si kontrolovane vymieňa niektoré kľúčové údaje vďaka čomu spolu s partnermi ťaží zo synergií.
  • Existujú partnerstvá medzi nadnárodnými firmami a malými startupmi: malé firmy si pomocou údajov od tých veľkých hľadajú malé skulinky na trhu, skulinky do ktorých sa veľké firmy nechcú či dokonca nemôžu dostať. Úžitok majú veľké aj malé firmy a tiež ich zákazníci.

OpenData a výskum

P. Bieliková (nadväzujúc na svojho predrečníka p. Janotu a ním spomenutý projekt eDemokracia a jeho rozpočet čítajúci niekoľko desiatok miliónov €) skonštatovala, že biznis už v OpenData je. A položila otázku, či bude v OpenData aj nejaký výskum? Viď vyššie časť "Prekážky" - dôvody brániace (aj a nie len) robeniu výskumu nad otvorenými údajmi.

"OpenData ready"

Vrámci prednášok aj diskusie bol spomenutý koncept "OpenData ready"

  • uspôsobenie existujúcich informačných systémov tak, aby z nich bolo možné začať publikovať otvorené údaje
  • zadefinovanie podmienok obstarávanie nových informačných systémov tak, aby boli schopné publikovať otvorené údaje hneď od začiatku

P. Illek tento koncept víta, keďže okrem daňových poplatníkov je užitočný aj pre organizácie samotné - koncept totiž pomôže o.i. zjednodušiť a zlacniť integrácie rôznych informačných systémov a uľahčiť medzirezortnú spoluprácu.

eDemokracia

p. Janota v predstavení projektu eDemokracia  spomenul, že tento projekt nahradí a rozšíri funkcionalitu existujúceho datového katalógu data.gov.sk. Projekt má však okrem OpenData časti aj ďalšie ciele: poskytnúť HW a SW licencie, pomoc pri novelizácii legislatívy, analytické a BI nástroje na otvorenými údajmi (napr. pre údaje o dotačných schémach) atď. Aby sa nevymýšľalo koleso, plánuje sa využitie existujúcich riešení, napr. data katalógu CKAN (ktorého staršiu verziu používa aj existujúci data.gov.sk).

Z pohľadu otvorených údajov sú COSMODE a eDemokracia veľmi podobné, keďže cieľom je napomôcť zverejňovať údaje čo najkvalitnejšie a najefektívnejšie. COMSODE je zameraný skôr distribuovane: plánuje sa nasadzovanie u samotných poskytovateľov dát na báze a riešenie bude na báze Open Source. eDemokracia naopak poskytne centraliozované riešenie formou Cloud služby.

p. Wienk však v súvislosti so zmienkou o OpenData ako katalyzátore radikálnej zmeny mentálneho nastavenia poukázala aj na to, že eDemokracia stále pripomína "podivné tendre" z minulosti a že teda hrozí minutie mnohých miliónov eur z rozpočtu EU na neadekvátny výsledok: nefunkčný alebo nedostatočne funkčný portál. Poukázala na to, že v USA majú zlé skúsenosti s "veľkými projektami" a vracajú sa k malým riešeniam na báze OpenSource (napr. www.data.gov je postavený na už spomenutom systéme CKAN).

Kataster

Kataster spomenul v úvode p. Pellegrini, neskôr ho však ako príklad rozvinula p. Bieliková:

Dnes by sme s ohľadom na aktuálny stav boli veľmi  spokojný, ak by čo i len trochu vylepšili vyhľadávanie na Katastrálnom portáli. Táto spokojnosť by nám však vydržala možno len rok či dva.

Budúcnosť totiž patrí jednoznačne sofistikovanejším aplikáciam, kde vyhrá rýchla inovácia, ktorú silno motivuje napr. aj konkurenčné prostredie. Akú inováciu môžeme očakávať od napr. Katastrálneho úradu a akú napr. od 1500 člennej masy IT študentov či malých a stredných podnikov? Aká úroveň spolupráce sa dá očakávať od dvoch či desiatich ministerstiev (kde panuje rezortizmus) a aká od dvoch či desiatich malých firiem (kde konkurencia tlačí na efektívne riešenia)?

Prioritné datasety

Niektoré priority navrhli napr. p. Illek a p. Bakošová - pričom nejde o počty či právnu záväznosť ale o reálnu dostupnosť dôležitých údajov:

  • registre a ďalšie sektorovo kľúčové zoznamy (databáza adresných bodov, register organizácií...)
  • rozpočty verejnej správy (vrátane samosprávy)
  • cestovné poriadky verejnej dopravy
  • kataster nehnuteľností
  • zoznamy dlžníkov
  • údaje z legislatívneho procesu
  • ...

Liknované údaje

Linkované údaje (Linked Data) a otvorené linkované údaje (Linked Open Data) prezentoval p. Liška (Linked Data Architect, DATALAN). Vďaka previazaniu údajov z viacerých datasetov bude možné v budúcnosti získať jednoducho odpovede na otázky typu "ktorí geodeti poberajú povinné výtlačky a sedia na fialkovej ulici?" V súvislosti s tým pochvális psustenie data.gov.sk ("najlepší počin v SR"), odprezentoval DATALAN nastavbu menom Slovpedia (zatiaľ nie je verejne dostupná) a naznačil súvislosti s projektom Datanest ("sémantický fair-play").

Drobné zaujímavosti

  • P. Wienk  prezentovala o.i. zNasichDani.sk a v príklade uviedla p. Širokého a jeho firmy. Prečo neuviedla napr. prítomného p. Klačana resp. firmu DATALAN? Na konferencii bol a nemal by námiekty. (smile)

Ďalšie informácie

  • No labels

1 Comment

  1. GOOD REPORT

    video neskor pozriem...

     

    Klacan by bol fakt rukolapnejsi priklad (big grin)