Pilvee, pilvee, pilvee

Olin juuri saanut luetuksi Juice Leskisen Risaisen elämän, kun menin seminaariin kuuntelemaan Digibarometri 2015 -julkistusta. En voinut mitenkään estää korvamatoa, joka alkoi laulaa otsikon biisiä. Mielenkiintoinen tutkimus Googlen Trends – datan pohjalta kertoo sen karun tosiasian, että vielä vuonna 2010 (siis viisi vuotta sitten) käsite ”pilvi” miellettiin Suomessa puhtaasti samaan viitekehykseen, jossa Juice aikonaan tilitti kanssakäymistään sinipukuisten viranomaisten kanssa. Pilvipalveluja sivuavien Google-hakujen määrä kasvoi Suomessa kuitenkin räjähdysmäisesti 2010-vuoden puolen välin jälkeen ja saavutti huippunsa 2014 syksyllä. Vastaavasti suhteellinen huippu USA:ssa saavutettiin jo 2011, jonka jälkeen siitä on tullut ”business-as-usual”.

Lähde: Digibarometri 2015

Lähde: Digibarometri 2015

Pilvipalvelujen hyödyntäjänä Suomi on noussut Euroopan kärkeen, mutta porautumalla tuloksiin tarkemmin selviää, että käytännössä tämän takana on muutamien isojen yritysten sähköpostipalvelujen siirtyminen pilveen. Todellisia yrityssovelluksia käytetään vielä heikosti.

Meillä on tässä business probleema, joka pitää ratkaista…

Oma kokemukseni tukee tuota tulosta. Olin alkuvuodesta myyntireissulla läntisessä naapurimaassa ja IT-järjestelmien ostokulttuurissa oli havattavissa jopa hätkähdyttävä ero. Kun meillä CIO:t vielä pääsääntöisesti rakentavat omaa arkkitehtuuriaan, jossa päällimmäisen tavoitteena on järjestelmien keskittäminen, yllätyin kun suuren kansainvälisen yrityksen paikallisen CIO:n viesti oli seuraava: ”Meillä on tässä business probleema, joka pitää ratkaista, tuleehan teidän ratkaisu pilvestä, ettei meille tarvitse asentaa mitään.” Pakko myöntää, että vastaavaa asennetta olen tavannut kotimaassa erittäin harvoin.

Anna tuotteen kertoa itse oma tarinansa

Toinen Digibarometrin selkeä viesti oli verkkokauppataseen massiivinen alijäämä.

Tarkoittaa siis sitä, että suomalaiset ostavat ulkomaisista verkkokaupoista, mutta ulkomaiset eivät osta suomalaisista verkkokaupoista.

Panelisteista mm. Koneen CIO Kati Hagros sekä Googlen Senior Industry Analyst Johanna Wahlroos säestivät tuota ja korostivat, että verkkokaupan koukuttavuus syntyy ennen kaikkea hyvästä datasta, jota meillä ei osata hyödyntää. Tähän liittyy tietysti analytiikka – mitä tuotteita on ostettu, minkälaisilla hakusanoilla tähän on päädytty, minkalaisten ostajien toimesta jne. Näiden ympärillä pyörii paljon erilaisia palveluntarjoajia, mutta miksi maksaa Googlelle tai muille hakukoneille, jotta ne nostaisivat hakutulosta, kun sen voi tehdä yksinkertaisesti parantamalla tuoteinformaatiota siten, että tuote kertoo itse tarinansa. Loppupelissä asiakkaat luottavat kuitenkin enemmän tuotteen yhteydessä ilmoitettuun informaatioon kun hakukoneen esille nostamaan mainokseen (The Forrester Wave™: Product Information Management (PIM) Q2 2014).

Nauttikaamme siis laillisesti pilvestä laittamalla tuoteinformaatio yksiselitteiseen ja laadukkaaseen kuntoon – saadaan samalla verkkokauppatase käännettyä ylijäämäiseksi ja kansalaisille töitä. (… joo, en siis ole pyrkimässä eduskuntaan).

-PDM Preacher

Mainokset

Väestötiedot ja nimikeduplikaatit

Vajaa seitsemänkymmentä vuotta sitten Halbert Dunn kirjoitti kunnianhimoisen artikkelin, jonka hedelmiä datan laadun kanssa painivat vieläkin saavat nauttia. Vuonna 1946 American Journal of Public Healthissa julkaistu paperi esitteli ensimmäistä kertaa tietojen yhdistämisen käsitteen.

Dunnin haaveena oli koostaa jokaisesta ihmisestä elämän kirja, book of life, jossa ensimmäisellä sivulla on syntymä ja viimeisellä lehdellä kolistellaan manalan porteilla. Väliin mahtuu kaikki se, mikä näiden tapahtumien väliin oikeastikin terveydenhuollon ja väestötietojen vinkkelistä mahtuu. Mielenkiintoinen ongelma on, miten henkilön tiedot voidaan linkittää oikeaan ihmiseen. Onko tässä kuussa avioituva Matti Virtanen sama Matti, joka syntyi 26 vuotta sitten? Kysymys on niin hyvä, että sen ääneen lausumisesta saavat datanikkarit olla edelleen hienoisessa kiitollisuudenvelassa 1800-luvun loppupuolella syntyneelle tilastotieteilijälle.

Dunnin paperin merkitys on lähinnä siinä, että se esittelee tietojen yhdistämisen käsitteen. Toisen maailmansodan jälkimainingeissa ei vielä murehdittu big dataa tai liiketoiminnan ydintietoja samalla tavalla kuin nykyään – mikrofilmit ja reikäkortit tarjosivat melko puolivillaisen ratkaisun suurten tietomäärien tehokkaaseen käsittelyyn.

Pysähdytään hetkeksi. Dunn siis halusi yhdistää henkilöön viittaavia tietoja itse henkilöön. Kysymys kuvaavatko nämä tiedot samaa henkilöä on sisällöltään kovin lähellä kysymystä kuvaavatko nämä attribuutit samaa nimikettä. Dunn ei tarjonnut tähän työkaluja, vaan muotoili ainoastaan mahdollisen käyttötarkoituksen.

Ajatuksesta menetelmäksi on toisinaan pitkä matka. Tässä tapauksessa siihen meni viitisentoista vuotta: Howard Newcomben tutkimusryhmä esitteli todennäköisyyksiin perustuvan mallinsa 1959 ja siitä eteenpäin jatkoivat Ivan Fellegi ja Alan Sunter 1969 julkaistulla paperillaan. Näillä olkapäillä seisoo vielä tänäänkin suuri osa tietojen yhdistämiseen liittyvästä tutkimuksesta, on se sitten osoiterekisterin siivoamista, verkkokaupan tuotekirjon parsintaa, suomalaiskonepajan nimikekannan putsaamista tai terrorismin torjuntaa.

Sekä Dunn, Newcombe sekä Fellegi ja Sunter puhuivat lähinnä terveydenhuoltoon ja väestönlaskentaan liittyvästä tietojen yhdistelystä. Ja syystäkin: henkilötiedot olivat sen ajan kuuminta big dataa.

Sotien jälkeen alettiin punnertaa hyvinvointiyhteiskuntia ylös verotusjärjestelmineen kaikkineen. Laajat henkilö- ja yritystietokannat näkivät päivänvalon ja samanaikaisesti tietokonetekniikka nosti päätään. Mahdollisuus, teknologia ja tarve kohtasivat – data oli uusi öljy jo tuolloin.

Tästä nykypäivään: henkilötietoja yhdistellään edelleen. Sosiaalinen media, kauppojen kanta-asiakasjärjestelmät ja terrorismiepäiltyjen seuranta ovat kaikki otollista maaperää sille ajattelulle, joka polkaistiin alulle kymmeniä vuosia sitten.

Vaikka menetelmiä on ehditty tutkia ja koeponnistaa jo melko pitkään, onnistuminen ei edelleenkään ole välttämättä helppoa. Yhdysvalloissa TSA ylläpitää no-fly-listaa ihmisistä, jotka on turvallisuuden nimissä syytä jättää lähtöportille. Kuulostaa järkevältä, mutta ilmeisesti algoritmissa on vielä hienosäädettävää: tietojärjestelmähämmingin vuoksi syli-ikäinen suklaasilmä ei päässyt viime keväänä koneeseen, kertoo CNN. Ilmeisesti tässä kuitenkin on sama ongelma kuin monessa muussakin herkullisessa anekdootissa – se ei ole ihan kokonaan totta. Ongelma liittyi johonkin muuhun kuin varsinaiseen no-fly-listan generoivaan yhdistelyalgoritmiin, mutta olkoon silti esimerkkinä siitä, miten suurenkin budjetin piireissä onnistutaan toisinaan ampumaan itseään jalkaan.

Vastine edelliseen! Onko Big data enää isoa?

Joko tuo ”Big” etuliite voidaan poistaa? Datamassat paisuvat jatkuvasti, se on selvää. Siksi tuo ”Big” viittaa tänä vuonna eri suuruusluokan datamassaan kuin esimerkiksi viime vuonna. Puhutaan vaikka datatulvasta tai keksitään joku muu kuvaavampi termi.

Mietin datateemojen marssijärjestystä: Kumpi tulee ensin Big vai Master? Koska fuusioidaan tästä Big Master Data? No tulin siihen tulokseen, että Master Data on fokus numero yksi, jonka jälkeen katseet voidaan kääntää Big Dataan. Master Data ongelmia on kaikilla yrityksillä ja niiden rooli turhina kustannuserinä nousee taas tänä vuonna esille, kun monessa paikassa etsitään optimointikohteita. Suuria, jäsentymättömiä datamassoja ei vielä kovin moni organisaatio kaivele muutenkaan. Master Datan hallinta myös pakottaa miettimään datanhallintaprosessit ja vastuut valmiiksi, mikä helpottaa kaikenlaisten tulevien datahankkeiden onnistumista.

”Big Poppa Mastah Datanator”

Big Master Data –heittoni tuolla alussa ei ollut täysin tuulesta temmattu vitsi. Viime marraskuun Asiakaspäivässämme vieraillut ja tässä blogissakin aikaisemmin mainittu Peter R. Benson ennusti, että tulevaisuudessa ihmisen antama datasyöteDatan validointi nousee avainasemaan vähenee, ja järjestelmät synnyttävät ja vaihtavat dataa keskenään. Kuinka paljon esim. asiakasdatasta, siis siitä metadatasta, on oikeastaan kenenkään omistuksessa?

Vuodet vierii, tietomassat kasvaa. Joka vuosi massan kasvaessa sen oman asiakastiedon ja nimikemassan järkevöittäminen hankaloituu. Ehkä vuosi 2013 on hyvä vuosi nostaa data puheista tekoihin?

The data is already out there!

– Kalle –

Big data – isoakin isompi

Tykkään siitä kun asiat sanotaan suoraan ja suomeksi. Antaa ihmiselle täällä pohjan perukoilla mahdollisuuden ymmärtää kaikenmaailman asiat oikein. Viimeksi ilahduin törmätessäni yhteen suomalaiseen määritelmään isolle datalle: Jäsentymätön sähköisen tiedon tulva. Tämä kuvaus löytyi toimittaja Elina Lappalaisen kolumnista ”Iso data on rahaa”, Talouselämä 2/13.  (Ei liity aiheeseen, mutta kyseessä on sama Elina Lappalainen, jonka teos ”Syötäväksi kasvatetut”, voitti viime vuoden Tieto-Finlandia-palkinnon.)

Iso data on aika vaatimaton termi ilmiölle, jossa dataa kertyy käsittämättömiä määriä joka hetki. Kuten Elina kirjoittaa, big data on avannut markkinan yrityksille, jotka kehittävät datan ymmärtämistä ja hyödyntämistä helpottavia työkaluja. Heidän ansiostaan saamme lähitulevaisuudessa tehtyä kehittyneitä hakuja eri lähteissä sijaitsevista valtavista datamassoista ja jalostettua tietoa eri tahojen haluamaan käyttöön. Hyödyntäjiä löytyy ainakin markkinoinnin, tutkimuksen, politiikan ja yrityspäättäjien tahoilta.

Big data, big brother?

Huolimatta kaikesta hyvästä mitä siitä seuraa, nousee mieleen jotain orwellimaista…  Toisaalta turha maalata piruja seinälle; elämmehän jo nyt tilanteessa, jossa internetin hakupalveluja käyttävä henkilö voi unohtaa käsitteen ”yksityisyyden suoja”. Koko maailman kaikki nettiin liittyneet yksittäiset tietokoneet ja palvelimet muodostavat jonkinlaisen globaalin data-arkiston. Ei sentään globaalia datanhallintajärjestelmää, koska big datan massan tuottamista, määrää ja sisältöä ei kukaan voi hahmottaa, saati sitten hallita (ainakaan vielä).

Tällaiselle ruohonjuuritasolta maailmaa katsovalle tyypille eräänlaista isoa dataa on omaan sähköpostiin saapuva sekalainen aineisto. Sitäkin voi kuvata määritelmällä jäsentymätön sähköisen tiedon tulva… 

arvelee Antitekniikan asiantuntija Lilli