Dataa on kaikkialla, mutta harva tietää mitä se oikeasti on

Dataa on enemmän kuin koskaan, mutta luottamus siihen vaihtelee. Kolme neljästä johtajasta ei luota oman organisaationsa dataan, ja vain 10 prosenttia kokee hallitsevansa sen laadun. Syy ei ole tekninen, vaan puhtaasti inhimillinen. Emme ymmärrä, mistä data tulee, miten se syntyy ja mitkä valinnat muovaavat sitä ennen kuin se päätyy päätöksentekomme pohjaksi.

Martti Asikainen & Umair Ali Khan, 27.2.2026 | Kuva: Adobe Stock Photo

Ajattele mielessäsi tavallinen maanantainen palaveri. Myyntijohtaja avaa esityksensä ja sanoo pontevasti datan osoittavan, että asiakkaanne haluavat nopeampaa toimitusta. Tiimisi nyökyttelee ympärillä, mutta kukaan ei kysy, mistä data on peräisin, miten se on kerätty, ketä se edustaa tai mitä se jättää kertomatta, koska data puhuu puolestaan. Kelaa tästä hetki eteenpäin. Päätös tehdään, budjetti allokoidaan ja suunta muuttuu, koska data sanoi niin.

Tämä skenaario ei ole harvinainen poikkeus, vaan ihan tavallinen kuvaus lähes jokaisesta datavetoisesta yrityksestä tänä päivänä. Luvut paljastavat hämmentävän ristiriidan. Dataa on kaikkialla, mutta sen luonne vaikuttaa olevan yhä hämärän peitossa jopa niille henkilöille, jotka siihen työssään eniten nojaavat (Mayer-Schönberger & Cukier 2013). Kenties juuri tästä syystä datatutkija Rob Kitchin (2014) on usein huomauttanut, että jos dataa pidetään objektiivisena ja itsestään puhuvana, niin sen synty, rakenne ja käyttötarkoitus jäävät helposti tarkastelematta.

KPMG:n ja Forrester Consultingin vuoden 2019 raportin mukaan jopa 60 % data- ja analytiikkapäättäjistä koki, etteivät he ole luottavaisia analytiikkanäkemyksiinsä, ja vain 10 % piti organisaatiotaan erinomaisena datan laadun hallinnassa (KPMG/Forrester 2019, n=2 165). HFS Researchin tutkimus puolestaan paljastaa, että peräti kolme neljästä johtajasta ei luota oman organisaationsa dataan (HFS Research 2022). Toisin sanoen kyse ei ole pelkästään siitä, onko data objektiivisesti oikeaa, vaan siitä, pitävätkö päätöksentekijät sitä riittävän luotettavana, kattavana, ajantasaisena ja relevanttina päätöksenteon tueksi.

Eikä heidän välttämättä kannattaisikaan. Dataa voi olla niin montaa eri laatua. Aivan kuten tietokirjailija Thomas Redman (2018) huomauttaa Harvard Business Review’ssa julkaistussa artikkelissaan, heikkolaatuinen data ei ainoastaan heikennä analytiikan tuloksia, vaan voi tehdä myös kehittyneistä koneoppimismalleistasi käytännössä hyödyttömiä. Luottamuksen puute ei siis ole vain tunne, vaan ihan oikea rakenteellinen ongelma, mitä tulee dataan ja sen käyttöön.

Mitä data on ja miten se toimii

Tämän tiedon innoittamana on ehkä aiheellista kysyä, mitä data oikeastaan edes on. Yksinkertaisimmillaan se on havaintoja todellisuudesta, jotka on muutettu mitattavaan muotoon. Kun painat tykkää-nappia sosiaalisessa mediassa, niin siitä syntyy datapiste. Jos astut kauppaan ja mobiilisovelluksesi rekisteröi sijaintisi, niin myös se on datapiste.

Samoin kuin kaupassa käyttämäsi etukortti, josta saat bonuksia maksaessasi sekä hakukoneen hakukenttään kirjoittamasi teksti ’paras pizza Helsinki’. Toisin sanoen, jokainen vuorovaikutus digitaalisessa ympäristössä jättää jäljen, ja nuo jäljet ovat osa dataa.

Dataa ei kuitenkaan synny itsestään, eikä sitä tulisi koskaan erehtyä pitämään neutraalina (kts. Noble 2018). Jokaisen datapisteen taustalla on jokin valinta, kuten mitä mitataan, miten mitataan, milloin mitataan, kuka mittaa ja millä tavoin havainto luokitellaan (Bowker & Star 1999). Nämä valinnat eivät myöskään tapahdu tyhjiössä, vaan ne heijastavat aina jonkin ihmisen, organisaation tai järjestelmän arvomaailmaa, näkökulmaa ja tavoitteita (Gitelman 2013).

Data voidaan jakaa karkeasti kolmeen eri kategoriaan. Strukturoitu data on järjestelmällisesti organisoitua ja koneluettavaa, kuten esimerkiksi tietokantaan, taulukkolaskentaohjelmaan tai CRM-järjestelmään tallennettu myyntihistoria ja asiakastiedot. Puolistrukturoitu data sisältää tunnistettavia kenttiä tai merkintöjä, jotka antavat sille jonkinlaisen rakenteen, mutta se ei ole täysin jäsenneltyä.

Esimerkiksi sähköpostit ja sosiaalisen median julkaisut ovat tällaista: osittain organisoituja, mutta vapaamuotoisia. Strukturoimaton data taas käsittää kaiken sen, mitä ei ole luokiteltu etukäteen. Tällaisia ovat esimerkiksi kuvat, videot, äänitiedostot ja käsinkirjoitetut muistiinpanot. Eri arvioiden mukaan jopa 80–90 prosenttia kaikesta maailman datasta on strukturoimatonta (IDC 2018; Gartner 2023).

Viisi eri luomiskertomusta

Data syntyy viidellä eri tavalla. Tapojen erottaminen toisistaan on tärkeää, koska syntytapa vaikuttaa suoraan siihen, mitä datalla voidaan tehdä ja kuinka luotettavaa se on. Ensimmäinen ja vanhin tapa on datan kerääminen systemaattisen menettelyn avulla. Tällaista dataa syntyy, kun yritys toteuttaa asiakaskyselyn, tutkija haastattelee koehenkilöitä tai laskuri laskee ovella vierailevat kävijät.

Kerätyssä datassa on aina taustalla tavoitteellisuus ja tarkoitus. Data on syntynyt, koska joku päättänyt kerätä sitä jotakin varten. Tämä tarkoituksellisuus on samaan aikaan sen vahvuus ja heikkous. Vahvuus, koska data vastaa tiettyyn, ennalta päätettyyn kysymykseen. Heikkous, koska se vastaa vain siihen kysymykseen, joka osattiin etukäteen kysyä.

Toinen on passiivisesti syntyvä data, jota kutsutaan usein jälkidataksi tai digitaaliseksi jalanjäljeksi. Se syntyy sivutuotteena muusta toiminnasta, kuten esimerkiksi klikkauksista, hakusanoista, maksusuorituksista, sijaintidatasta ja lukemiseen käytetystä ajasta. Älypuhelin rekisteröi, mobiilisovellus tallentaa, ja verkkokauppa muistaa. Suurin osa yritysten keräämästä datasta kuuluu tähän kategoriaan, ja juuri tämä data on ruokkinut suurten teknologiayhtiöiden kasvun viimeisen kahden vuosikymmenen aikana (Zuboff 2019).

Kolmas kategoria on generatiivinen data, jota ihmiset tuottavat aktiivisesti, ilman että he ajattelevat tuottavansa dataa. Sosiaalisen median julkaisut, arvostelut, kommentit ja blogitekstit ovat kaikki generatiivista dataa.

Neljäs puolestaan on sensoreiden ja laitteiden tuottama data, jota syntyy esineiden internetissä (eng. IoT, Internet of Things), tehtaan koneista, liikennevaloista, sydämentahdistimista ja sääasemilta. Ennusteiden mukaan maailmassa on vuoteen 2030 mennessä noin 39 miljardia yhdistettyä laitetta, jotka kaikki tuottavat dataa jatkuvasti (IoT Analytics 2025).

Viides kategoria on synteettinen data eli generatiivisten tekoälymallien tuottama keinotekoinen data. Sitä ei kerätä suoraan todellisista tapahtumista, vaan se tuotetaan laskennallisesti jäljittelemään oikeiden aineistojen tilastollisia ominaisuuksia ja rakenteita. Organisaatiot hyödyntävät synteettistä dataa moniin tarkoituksiin, kuten esimerkiksi simulointiin, testaukseen, skenaarioanalyyseihin sekä koneoppimismallien kouluttamiseen silloin, kun oikeaa dataa on niukasti tarjolla, se on arkaluonteista tai tietosuojamääräykset rajoittavat sen käyttöä.

Synteettinen data voi laajentaa datan saatavuutta ja vähentää tietosuojariskejä, mutta samalla se heijastaa väistämättäkin myös sen tuottamisessa käytettyjen mallien ja lähdedatan oletuksia, vinoutumia ja rajoituksia. Siksi synteettiseen dataan perustuvat päätökset edellyttävät aina kriittistä arviointia siitä, miten ja miksi kyseinen data on luotu.

Datan ei synny valmiina

Data ei synny koskaan valmiina. Se kulkee prosessin läpi, jota voidaan kutsua datan elinkaareksi. Ensin se syntyy ja kerätään, sitten se tallennetaan, jonka jälkeen se puhdistetaan ja muokataan käytettävään muotoon, analysoidaan ja lopulta esitetään tai hyödynnetään päätöksenteossa. Jokainen vaihe tuo mukanaan mahdollisuuden virheisiin ja vääristymiin.

Tallennusvaiheessa dataa voidaan menettää tai kirjata väärin. Puhdistusvaiheessa tehdään valintoja siitä, mitkä havainnot ovat ”poikkeavia” ja poistetaan ne, mikä voi tarkoittaa todellisuuden reunojen häivyttämistä. Analyysivaiheessa valitaan menetelmä, joka puolestaan vaikuttaa tulokseen. Esitysvaiheessa graafin asteikko voi tehdä pienestä muutoksesta dramaattisen tai isosta muutoksesta merkityksettömän.

Tästä syystä tieteen filosofiassa on jo pitkään todettu, ettei raakaa ja objektiivista dataa ole olemassa, sillä jokainen datapiste on jo tulkittu ennen kuin se päätyy analyysiin (esim. Latour 1987; Bowker 2005; Gitelman 2013). Siksi alussa esittämämme väite, jonka mukaan data puhuu puolestaan, on harhaanjohtaja ja väärä. Data ei koskaan puhu puolestaan, vaan aina jonkun äänellä, ja jonkun tekemien päätösten ja valintojen kautta.

Tekoälyn aikakausi on tehnyt datakysymyksestä akuutimman kuin koskaan aikaisemmin. Tekoälymallit oppivat datasta, ja ne toistavat datan sisältämiä rakenteita. Myös sen sisältämiä puutteita ja vinoumia. Kun Amazonin rekrytointialgoritmi oppi historiallisesta rekrytointidatasta, niin se oppi, että menestyneet hakijat olivat pääasiassa miehiä. Algoritmi ei syrjinyt naisia pahantahtoisuudesta, vaan siksi, että se oli oppinut datan kautta vain osan todellisuudesta (Dastin 2018).

Sama logiikka pätee kaikkialle, missä dataa käytetään päätöksenteon tukena. Terveydenhuollossa on esimerkiksi havaittu tapauksia, joissa tekoälymallit tunnistavat sairauksia heikommin naisilla kuin miehillä tai tekevät etnistä profilointia hoidontarpeen osalta, koska mallit ovat koulutettu datalla, joka ei huomioi riittävästi demografisia eroja (Straw & Wu 2022; Obermeyer ym. 2019). Luottoriskin arvioinnissa käytetty data puolestaan heijastaa aiempia luottopäätöksiä, jotka voivat systemaattisesti sulkea tiettyjä väestöryhmiä rahoituksen ulkopuolelle (Barocas & Selbst 2016; O’Neil 2016; Kleinberg ym. 2018).

Kysy oikeat kysymykset

Palataan hetkeksi maanantaipalaveriin ja myyntijohtajaan, jonka data kertoo asiakkaiden haluavan nopeampaa toimitusta. Nyt kun tiedät, mistä data tulee ja miten se syntyy, osaat kysyä oikeat kysymykset. Keiltä tämä data on kerätty, edustavatko he kaikkia asiakkaitanne, ja onko asiakassegmenteissä eroja, jotka tulisi huomioida dataa tulkitessa. Milloin data on kerätty, onko tilanne muuttunut, mitä kysyttiin, ja johdattelivatko kysymyksen asettelut vastauksia. Entä mitä datasta puuttuu ja kenen ääni ei kuulu lainkaan.

Nämä eivät ole teknisiä kysymyksiä. Ne ovat johtamiskysymyksiä. Ja niiden esittäminen ei tarkoita datan epäilemistä, vaan sen ymmärtämistä. Data ei ole vain lukuja taulukossa, vaan kertomus todellisuudesta, jonka on kirjoittanut joku, jostakin näkökulmasta ja jotakin tarkoitusta varten. Harvardin liiketoiminnan professori Thomas Davenport ja Accenturen entinen johtaja Jeanne Harris ovatkin todenneet osuvasti, että kilpailuetu ei synny pelkästään siitä, että sinulla on eniten dataa, vaan siitä, että osaat kysyä datalta oikeita kysymyksiä (Davenport & Harris 2007).

Datan keräämisen tekniset ratkaisut ovat kehittyneet nopeasti ja pitkälti standardoituneet, jonka vuoksi ongelmaa voi pitää lähes ratkaistuna. Paljon vaikeampi kysymys ja suurempi haaste on selvittää, mitä kerätyllä datalla tehdään ja miten sen rajoitukset tunnistetaan ennen kuin se ohjaa päätöksiä. Ilman tätä ymmärrystä analyysit voivat olla teknisesti virheettömiä, mutta silti harhaanjohtavia. Kyseessä on taito, jota ilman kaikki muu dataosaaminen rakentuu varsin heikolle perustalle.

Lähteet

Barocas, S., & Selbst, A. D. (2016). Big data’s disparate impact. California Law Review, 104(3), 671–732.

Bowker, G. C. (2005). Memory practices in the sciences. MIT Press.

Bowker, G. C., & Star, S. L. (1999). Sorting things out: Classification and its consequences. MIT Press.

Criado Perez, C. (2019). Invisible women: Data bias in a world designed for men. Chatto & Windus.

Dastin, J. (2018, October 11). Amazon scraps secret AI recruiting tool that showed bias against women. Reuters. https://www.reuters.com

Davenport, T. H., & Harris, J. G. (2007). Competing on analytics: The new science of winning. Harvard Business School Press.

Forrester Consulting, & KPMG. (2019). Guardians of trust: Who is responsible for trusted analytics? KPMG International.

Gartner. (2023). Data and analytics trends. Gartner Research.

Gitelman, L. (Ed.). (2013). ”Raw data” is an oxymoron. MIT Press.

HFS Research. (2022). 75% of executives don’t trust their data. HFS Research.

IDC. (2018). The data age 2025: The digitization of the world. International Data Corporation.

IoT Analytics. (2025). Number of connected IoT devices growing 14% to 21.1 billion. IoT Analytics Research.

Kitchin, R. (2014). The data revolution: Big data, open data, data infrastructures and their consequences. SAGE.

Kleinberg, J., Mullainathan, S., & Raghavan, M. (2018). Human decisions and machine predictions. The Quarterly Journal of Economics, 133(1), 237–293.

Latour, B. (1987). Science in action: How to follow scientists and engineers through society. Harvard University Press.

Mayer-Schönberger, V., & Cukier, K. (2013). Big data: A revolution that will transform how we live, work, and think. Houghton Mifflin Harcourt.

Noble, S. U. (2018). Algorithms of oppression: How search engines reinforce racism. NYU Press.

O’Neil, C. (2016). Weapons of math destruction: How big data increases inequality and threatens democracy. Crown.

Obermeyer, Z., Powers, B., Vogeli, C., & Mullainathan, S. (2019). Dissecting racial bias in an algorithm used to manage the health of populations. Science, 366(6464), 447–453.

Redman, T. C. (2018). If your data is bad, your machine learning tools are useless. Harvard Business Review. https://hbr.org

Straw, I., & Wu, H. (2022). Investigating for bias in healthcare algorithms: A sex disparity in liver disease AI performance. BMJ Health & Care Informatics, 29(1), e100457.

Zuboff, S. (2019). The age of surveillance capitalism: The fight for a human future at the new frontier of power. PublicAffairs.