Onpas sinusta kasvanut jo iso järjestelmä!

*DM-järjestelmien kanssa painiessa otsikon mukainen lausahdus tulee usein mieleen. Erilaista tietoa on runsaasti, tieto on syvästi rakenteellista ja monimutkaista. Kukaan ei liene täysin selvillä siitä mitä kaikkea yksittäinen tuoterivi saattaa sisältää. On siirtotietoa, suuretietoa, lajittelutietoa, kuvauksia jne. Tästä tuskasta kertoo myös järjestelmien tietorakenteet; Esimerkiksi SAP:n tietokanta (RDBMS) sisältää tuhansia tai kymmeniä tuhansia tietokantatauluja. ECC ja R/3 koostuu yli kolmestakymmenestä tuhannesta taulusta kun taas CRM saattaa jäädä alle kymmenen tuhannen. Vertailun vuoksi jotkin PDM-järjestelmät sisältävät tauluja vain noin 100-200. Rakenteellisuus on olennainen osa järjestelmiä, mutta samalla rakenteellisuus ainakin tietoalkiotasolla tuo mukanaan melkoisia ongelmia mitä tulee itse järjestelmien toimintaan. Viitteiden ylläpidon, tiedon reaaliaikaisuuden ja tiedon esittämisen haasteet lisääntyvät eksponentiaalisesti, mitä suuremmaksi objektien rakenne kasvaa. Tiedonhaku vaikeutuu ja järjestelmän koko ”pullistuu”.

Järjestelmädieetti

Ratkaisuna monimutkaisiin rakenteisiin ehdotan  NOSQL-tyyppisiä järjestelmiä, tuettuna relaatiokannalla metadatan tallentamista varten. Poistetaan turhat rakenteelliset attribuutit ja tuodaan rekursion sijaan peliin leveät tietueet, kuten esim. BigTable, HBase, Amazon SimpleDB, Cassandra, Lucene jne. Mitä laveampi data tarkoittaa käyttäjälle? Tietokanta-/kyselymielessä jokaiseen liitokseen voidaan liittää aikakustannus. Kustannus ei ehkä ole suuri (tyypillisesti millisekunteja keskikokoisessa järjestelmässä), mutta kun näitä kustannuksia on paljon, puhutaan helposti sekunneista tai jopa kymmenistä sekunneista.

Kuinka merkittäviä sekunnit ovat? Jos haet tietoa vaikkapa 500 kertaa päivän aikana, löydökset ovat 70% tarkkoja (lue: haet tietoa todella hyvin ja tarkasti) sekunnin kustannus on jo kohtuullisen merkittävä. Kustannus (hakutulokset ja niiden kahlaaminen huomioonottaen) kuluttaa työpäivästäsi n. 20 %. Merkittävä määrä aikaa siis menee tiedon hakemiseen. Laveassa tietomallissa liitokset ovat jo soveltuvin osin kiinni itse alkuperäisessä objektissa ja tästä suora seuraus on hakuaikojen lyheneminen, tiedonsaannin tehostuminen sekä myös hakuominaisuuksien suoraviivaistuminen.

Muistithan bonukset?

Mitä muuta etua saavutetaan? Kun mukana ei enää kuljeteta merkityksetöntä sisäistä tietoa, tilantarve palvelimella pienenee, riippuen tietorakenteesta. Lisäksi tehokkaammat ja nopeammat järjestelmät voidaan ottaa esimerkiksi data mining-käyttöön (duplikaattien poisto, tiedon eheyden tarkistus, samankaltaisuuksien poiminta, puuttuvien tietojen etsintä jne.).  Voidaan hyödyntää ”uudenlaisia” ja tehokkaampia hakutapoja, ja mikä tärkeintä, voidaan esitellä semantiikkaa, mikä taasen tarjoaa aivan uusia ja mullistavia tapoja ”* Data Managementtiin”. Semantiikasta jatkakaamme myöhemmin, tämänkertainen ajatusvirta olkoon tässä.

– Juha –

Advertisements

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s