Väestötiedot ja nimikeduplikaatit

Vajaa seitsemänkymmentä vuotta sitten Halbert Dunn kirjoitti kunnianhimoisen artikkelin, jonka hedelmiä datan laadun kanssa painivat vieläkin saavat nauttia. Vuonna 1946 American Journal of Public Healthissa julkaistu paperi esitteli ensimmäistä kertaa tietojen yhdistämisen käsitteen.

Dunnin haaveena oli koostaa jokaisesta ihmisestä elämän kirja, book of life, jossa ensimmäisellä sivulla on syntymä ja viimeisellä lehdellä kolistellaan manalan porteilla. Väliin mahtuu kaikki se, mikä näiden tapahtumien väliin oikeastikin terveydenhuollon ja väestötietojen vinkkelistä mahtuu. Mielenkiintoinen ongelma on, miten henkilön tiedot voidaan linkittää oikeaan ihmiseen. Onko tässä kuussa avioituva Matti Virtanen sama Matti, joka syntyi 26 vuotta sitten? Kysymys on niin hyvä, että sen ääneen lausumisesta saavat datanikkarit olla edelleen hienoisessa kiitollisuudenvelassa 1800-luvun loppupuolella syntyneelle tilastotieteilijälle.

Dunnin paperin merkitys on lähinnä siinä, että se esittelee tietojen yhdistämisen käsitteen. Toisen maailmansodan jälkimainingeissa ei vielä murehdittu big dataa tai liiketoiminnan ydintietoja samalla tavalla kuin nykyään – mikrofilmit ja reikäkortit tarjosivat melko puolivillaisen ratkaisun suurten tietomäärien tehokkaaseen käsittelyyn.

Pysähdytään hetkeksi. Dunn siis halusi yhdistää henkilöön viittaavia tietoja itse henkilöön. Kysymys kuvaavatko nämä tiedot samaa henkilöä on sisällöltään kovin lähellä kysymystä kuvaavatko nämä attribuutit samaa nimikettä. Dunn ei tarjonnut tähän työkaluja, vaan muotoili ainoastaan mahdollisen käyttötarkoituksen.

Ajatuksesta menetelmäksi on toisinaan pitkä matka. Tässä tapauksessa siihen meni viitisentoista vuotta: Howard Newcomben tutkimusryhmä esitteli todennäköisyyksiin perustuvan mallinsa 1959 ja siitä eteenpäin jatkoivat Ivan Fellegi ja Alan Sunter 1969 julkaistulla paperillaan. Näillä olkapäillä seisoo vielä tänäänkin suuri osa tietojen yhdistämiseen liittyvästä tutkimuksesta, on se sitten osoiterekisterin siivoamista, verkkokaupan tuotekirjon parsintaa, suomalaiskonepajan nimikekannan putsaamista tai terrorismin torjuntaa.

Sekä Dunn, Newcombe sekä Fellegi ja Sunter puhuivat lähinnä terveydenhuoltoon ja väestönlaskentaan liittyvästä tietojen yhdistelystä. Ja syystäkin: henkilötiedot olivat sen ajan kuuminta big dataa.

Sotien jälkeen alettiin punnertaa hyvinvointiyhteiskuntia ylös verotusjärjestelmineen kaikkineen. Laajat henkilö- ja yritystietokannat näkivät päivänvalon ja samanaikaisesti tietokonetekniikka nosti päätään. Mahdollisuus, teknologia ja tarve kohtasivat – data oli uusi öljy jo tuolloin.

Tästä nykypäivään: henkilötietoja yhdistellään edelleen. Sosiaalinen media, kauppojen kanta-asiakasjärjestelmät ja terrorismiepäiltyjen seuranta ovat kaikki otollista maaperää sille ajattelulle, joka polkaistiin alulle kymmeniä vuosia sitten.

Vaikka menetelmiä on ehditty tutkia ja koeponnistaa jo melko pitkään, onnistuminen ei edelleenkään ole välttämättä helppoa. Yhdysvalloissa TSA ylläpitää no-fly-listaa ihmisistä, jotka on turvallisuuden nimissä syytä jättää lähtöportille. Kuulostaa järkevältä, mutta ilmeisesti algoritmissa on vielä hienosäädettävää: tietojärjestelmähämmingin vuoksi syli-ikäinen suklaasilmä ei päässyt viime keväänä koneeseen, kertoo CNN. Ilmeisesti tässä kuitenkin on sama ongelma kuin monessa muussakin herkullisessa anekdootissa – se ei ole ihan kokonaan totta. Ongelma liittyi johonkin muuhun kuin varsinaiseen no-fly-listan generoivaan yhdistelyalgoritmiin, mutta olkoon silti esimerkkinä siitä, miten suurenkin budjetin piireissä onnistutaan toisinaan ampumaan itseään jalkaan.

Mainokset

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s