About Sakari Koivunen

Nörtti sekä robottiautomaation että tietojärjestelmien suunnalta katsottuna.

Janoisena hukkuvat

Arkikielen tietoon viittaavat metaforat ovat jännän vetisiä: puhumme sekä tietotulvasta että tiedonjanosta. Tulva ei tässä auta janoon, koska epärelevantti häly koetaan tulvana ja janoa puolestaan helpottaa ainoastaan laadukas, relevantti tieto.

John Naisbitt oli käsittääkseni ensimmäinen, joka muotoili tämän ristiriidan sanoiksi. Muutenkin lukemisen arvoisessa tulevia megatrendejä yllättävän tarkkaan luotaavassa Megatrends-kirjassaan (1982) Naisbitt kirjoittaa ”We are drowning in information and starving for knowledge”.

infoflow

Naisbittin lausahduksessa on osuvasti käytetty sanoja informaatio ja tieto. Datan, informaation ja tiedon suhteesta konsultti leipoisi fläppitaululle kolmion alta aikayksikön: siinä pohjaa pitää data, seuraavalla tasolla lepää informaatio ja huipulla komeilee tieto. Hyvänä päivänä kärkeen lisätään vielä ylevästi viisaus. Tämä nelikko antaa tiedon hierarkialle yleisesti käytetyn DIKW-akronyymin (data-information-knowledge-wisdom).

Kolmio on nopeammin piirretty kuin ymmärretty. Maailma on täynnä keskenään vähän erilaisia ja ristiriitaisia määritelmiä hierarkian eri tasojen sisällöistä ja merkityksistä. Esimerkiksi Zinsin (2007) artikkelissa käydään läpi 130 erilaista määritelmää 45 kansainvälisen tutkijan koostamana. Siltä varalta että asia kiinnostaa tarkemmin, laitan blogikirjoituksen loppuun muutaman mielenkiintoisen DIKW-hierarkiaa käsittelevän artikkeliviitteen.

Itse olen oppinut ajattelemaan niin, että data on yksittäisiä totuuksia. Data voi olla esimerkiksi ”Pekka” tai ”8.8”. Informaatio taas on dataa, joka on asetettu kontekstiin – jolle on annettu merkitys. Tässä yhteydessä voidaan puhua myös metatiedosta; tiedosta, jolla kuvataan dataa.

8.8 voi viitata piste-erotettuun desimaalilukuun, pultin lujuusluokkaan tai vähän väärin kirjoitettuun päivämäärään elokuun alkupuolelta. Informaatioksi 8.8 muuttuu kun siihen liitetään metatietoa, joka kertoo datan kuvaavan nimenomaan ruuvin lujuusluokkaa.

Tietohierarkian kaksi alinta tasoa voivat elää elämäänsä koneen sisällä, mutta tiedon kohdalla ihminen astuu kuvaan. Eri määritelmiä tällekin on useita, mutta itse miellän tiedon olevan ihmisen ymmärtämää, yhdistelemää ja soveltamaa informaatiota. Informaatio jalostuu tiedoksi ihmisen kognitiivisten prosessien kautta.

Juuri tieto on se, mikä liiketoimintamielessä eniten kiinnostaa. Tiedon varassa tehdään päätöksiä – tieto on bisneksen bensaa jonka synnyttämiseen, jalostamiseen ja hyödyntämiseen me kaikki käytämme leijonanosan työajasta. Arkinen työjuhtamme on kyllä ylevästi nimetty tietokoneeksi (vs. computer tai dator), mutta ei kone itsessään paljoakaan tiedä. Data dollarisoituu vasta siinä vaiheessa, kun asiantuntija tarttuu toimeen ja soveltaa järjestelmään hillottua informaatiota mielekkäästi.

Naisbitt ei ole ainoa, joka lausui jotain nasevaa vuonna 1982. Samana vuonna julkaistiin Harlan Clevelandin artikkeli Information as a resource. Siinä on montakin järkevää asiaa, mutta yksi lause pistää rohkeudellaan erityisesti silmään: ”Workers who have previously helped grow or extract or make things, or have been in the non-information services, will have to learn to become information workers – or get used to being unemployed.

Aika kovaa tekstiä yli kolmen vuosikymmenen takaa.

Clevelandin sitaatti on ihan yhtä totta kuin Naisbittin samana vuonna lausuma tietotulvan ja tiedonjanon ristiriita.

Välillä mietityttää, mitä tai mikä siellä tuotetiedon ytimessä oikeastaan on. Tuskin arvaus menee kovin pieleen, jos veikkaan siellä olevan parivaljakon informaatio ja ihminen. Kolmas pyörä saadaan koneellisesta käsittelystä: informaatiota on niin paljon, että ahkerampikin asiantuntija tikahtuu lähtöruutuun ilman fiksuja työkaluja.

Tiedonjanoisille lisäluettavaa:

Cleveland, Harlan. Information as a resource. Futurist, 16(6):34–39, 1982.

Frické, Martin. The knowledge pyramid: a critique of the DIKW hierarchy. Journal of Information Science, 35(2):131–142, 2009.

Naisbitt, John. Megatrends. Ten New Directions Transforming Our Lives. Warner Books, 1982.

Rowley, Jennifer. The wisdom hierarchy: representations of the DIKW hierarchy. Journal of Information Science, 33(2):163–180, 2007.

Zins, Chaim. Conceptual approaches for defining data, information, and knowledge. Journal of the American Society for Information Science and Technology, 58(4):479–493, 2007.

Väestötiedot ja nimikeduplikaatit

Vajaa seitsemänkymmentä vuotta sitten Halbert Dunn kirjoitti kunnianhimoisen artikkelin, jonka hedelmiä datan laadun kanssa painivat vieläkin saavat nauttia. Vuonna 1946 American Journal of Public Healthissa julkaistu paperi esitteli ensimmäistä kertaa tietojen yhdistämisen käsitteen.

Dunnin haaveena oli koostaa jokaisesta ihmisestä elämän kirja, book of life, jossa ensimmäisellä sivulla on syntymä ja viimeisellä lehdellä kolistellaan manalan porteilla. Väliin mahtuu kaikki se, mikä näiden tapahtumien väliin oikeastikin terveydenhuollon ja väestötietojen vinkkelistä mahtuu. Mielenkiintoinen ongelma on, miten henkilön tiedot voidaan linkittää oikeaan ihmiseen. Onko tässä kuussa avioituva Matti Virtanen sama Matti, joka syntyi 26 vuotta sitten? Kysymys on niin hyvä, että sen ääneen lausumisesta saavat datanikkarit olla edelleen hienoisessa kiitollisuudenvelassa 1800-luvun loppupuolella syntyneelle tilastotieteilijälle.

Dunnin paperin merkitys on lähinnä siinä, että se esittelee tietojen yhdistämisen käsitteen. Toisen maailmansodan jälkimainingeissa ei vielä murehdittu big dataa tai liiketoiminnan ydintietoja samalla tavalla kuin nykyään – mikrofilmit ja reikäkortit tarjosivat melko puolivillaisen ratkaisun suurten tietomäärien tehokkaaseen käsittelyyn.

Pysähdytään hetkeksi. Dunn siis halusi yhdistää henkilöön viittaavia tietoja itse henkilöön. Kysymys kuvaavatko nämä tiedot samaa henkilöä on sisällöltään kovin lähellä kysymystä kuvaavatko nämä attribuutit samaa nimikettä. Dunn ei tarjonnut tähän työkaluja, vaan muotoili ainoastaan mahdollisen käyttötarkoituksen.

Ajatuksesta menetelmäksi on toisinaan pitkä matka. Tässä tapauksessa siihen meni viitisentoista vuotta: Howard Newcomben tutkimusryhmä esitteli todennäköisyyksiin perustuvan mallinsa 1959 ja siitä eteenpäin jatkoivat Ivan Fellegi ja Alan Sunter 1969 julkaistulla paperillaan. Näillä olkapäillä seisoo vielä tänäänkin suuri osa tietojen yhdistämiseen liittyvästä tutkimuksesta, on se sitten osoiterekisterin siivoamista, verkkokaupan tuotekirjon parsintaa, suomalaiskonepajan nimikekannan putsaamista tai terrorismin torjuntaa.

Sekä Dunn, Newcombe sekä Fellegi ja Sunter puhuivat lähinnä terveydenhuoltoon ja väestönlaskentaan liittyvästä tietojen yhdistelystä. Ja syystäkin: henkilötiedot olivat sen ajan kuuminta big dataa.

Sotien jälkeen alettiin punnertaa hyvinvointiyhteiskuntia ylös verotusjärjestelmineen kaikkineen. Laajat henkilö- ja yritystietokannat näkivät päivänvalon ja samanaikaisesti tietokonetekniikka nosti päätään. Mahdollisuus, teknologia ja tarve kohtasivat – data oli uusi öljy jo tuolloin.

Tästä nykypäivään: henkilötietoja yhdistellään edelleen. Sosiaalinen media, kauppojen kanta-asiakasjärjestelmät ja terrorismiepäiltyjen seuranta ovat kaikki otollista maaperää sille ajattelulle, joka polkaistiin alulle kymmeniä vuosia sitten.

Vaikka menetelmiä on ehditty tutkia ja koeponnistaa jo melko pitkään, onnistuminen ei edelleenkään ole välttämättä helppoa. Yhdysvalloissa TSA ylläpitää no-fly-listaa ihmisistä, jotka on turvallisuuden nimissä syytä jättää lähtöportille. Kuulostaa järkevältä, mutta ilmeisesti algoritmissa on vielä hienosäädettävää: tietojärjestelmähämmingin vuoksi syli-ikäinen suklaasilmä ei päässyt viime keväänä koneeseen, kertoo CNN. Ilmeisesti tässä kuitenkin on sama ongelma kuin monessa muussakin herkullisessa anekdootissa – se ei ole ihan kokonaan totta. Ongelma liittyi johonkin muuhun kuin varsinaiseen no-fly-listan generoivaan yhdistelyalgoritmiin, mutta olkoon silti esimerkkinä siitä, miten suurenkin budjetin piireissä onnistutaan toisinaan ampumaan itseään jalkaan.

Nimikkeisiin tutustumista

Aloitin alkuvuodesta diplomityötäni. Painin algoritmien parissa ja yritän viilata niitä tunnistamaan duplikaatteja nimikeaineistosta.

Tuotetiedon maailma oli vielä tammikuussa aika etäinen. Koneinsinööritausta auttoi ymmärtämään suunnittelijoiden ongelmia ja kappaletavarateollisuuden arkea, mutta rehellisesti sanoen olin silti melko pihalla.

Tähänkin blogiin kirjoittaneilta konkareilta sain evästystä ja pian opin hahmottamaan, että kuralle päästetyt ydintietot kyykyttävät paremmankin bisneksen. Tuplanimike on vihoviimeinen riiviö ja niiden kesyttäminen on hyvinkin rahanarvoista puuhaa.

Silmiä avasi viimeistään se, kun vajaan vuoden ikäisestä Daman raportista luin huonon datan kustantavan suomalaisyrityksille noin kymmenen miljardia euroa vuositasolla. Tässä on toki mukana kaikki muukin kuin nimiketieto, mutta summa kuulosti silti häkellyttävän suurelta. Miljardiluokan hukka kannustaa tekemään omaa projektia sillä kunnianhimolla, millä siihen alun alkaenkin lähdin: teemme yhdessä tärkeää asiaa. En pysty opinnäytteessäni ratkaisemaan kuin pienen nurkan jostakin yksittäisestä osaongelmasta, mutta vähäinenkin työntöapu tuon summan selättämisessä on taatusti tervetullutta.

Ihmisen sanotaan ymmärtävän korkeintaan sellaisia rahamääriä, joita omassa taloudessa pyörii kuukausitasolla. Noin suuren rahareiän hahmottamiseen on pakko etsiä vertailukohtia jostain muusta kuin omasta taloudesta. Arjesta ei löydy moisille määrille konkretiaa.

Seitsemän miljardia litraa rasvatonta maitojuomaa. Miljoona tonnia irtokarkkeja. Reilun puolen miljoonan vuoden polttoaineet.

Ymmärtämiseen pitää hakea tukea nasevammista numeroista.

Himaselta voitaisiin ostaa vuoden jokaisena arkipäivänä viitisenkymmentä Sinistä kirjaa ja silti jäisi miljardi euroa pahan päivän varalle. Telakkayhtiö STX:lle myönnetyt TUI-risteilijätuet pystyttäisiin maksamaan lähes vuoden jokaisena päivänä täysmittaisina.

Yksi samankin suuruusluokan vertailukohta löytyy. Kestävyysvaje, eli valtiotaloudessa turpiin tuleva summa on samalla hehtaarilla. Toki tasavalta käyttää eri kukkaroa kuin bisnesmaailma, mutta vertailu tuntuu silti puhuttelevalta. Riemurinnoin paukuttelemme henkseleitä yhtenä maailman kilpailukykyisimmistä maista, mutta kuitenkin samaan aikaan kaadamme rahaa saavitolkulla viemäriin.

finopoly

Ihan sama vertaako summaa YLE-veroon, EU-maksuihin, Siniseen kirjaan tai hevosenlihakohun tuomiin PR-menetyksiin elintarviketeollisuudessa – summa on ja pysyy valtavana. Sen merkitys Suomen kilpailukyvyn kyykyttäjänä on lähes pelottavan suuri.

Puuttuuko meiltä työkaluja, tekijöitä vai tahtoa? Vai mistä homma kiikastaa?

Kuten totesin, tulen ydintietojen maailmaan ummikkona ja esitän enemmän kysymyksiä ja arvauksia kuin viisauksia. Tässä arvaisin, että teollisuutta riivaa sama kommunikaatio-ongelma kuin monessa muussakin yhteydessä: ne, joilla on valta päättää, eivät ymmärrä ongelmaa ja ongelman näkevät taas eivät pysty tekemään asialle tarpeeksi.

Koulupojan arvailu voi mennä pieleen, mutta lukijakunnan kollektiivinen kokemus on kattava. Kommentoikaa ja jakakaa ajatuksenne – haluan ymmärtää ongelman syitä paremmin.

Ymmärryksen karttumista odotellessa käärin hihat ja palaan algoritmien pariin. Näissä talkoissa se on paras panos minkä osaan antaa.