Tekoäly, joka on aina samaa mieltä kanssasi – kuulostaa hyvältä, kunnes se ei enää ole

Mitä tapahtuu, kun tekoäly oppii tuntemaan sinut liian hyvin? Useiden tutkimusten mukaan se ennemmin miellyttää sinua kuin kertoo totuuden. Ja pahinta on, että se on optimoitu juuri niin.

Martti Asikainen 15.3.2026 | Kuva luotu tekoälyllä

The picture is a stylized, semi-cartoon illustration of a man sitting at a desk and using a laptop. The man has sharp, angular facial features, dark hair, and a slightly mischievous or knowing smile. He is wearing a dark suit and a yellow tie, giving him the appearance of a professional or office worker.

Milloin viimeksi tekoäly sanoi sinulle suoraan, että olet väärässä? Mieti hetki. Jos vastaus ei tule heti mieleesi, niin syy ei välttämättä ole siinä, ettet olisi koskaan ollut väärässä. Syy voi olla se, ettei mallisi enää vaivaudu kertomaan sitä sinulle.

Tekoälysi haluaa miellyttää sinua. Sitä ei ole ohjelmoitu rehellisyyteen, vaan se on optimoitu saamaan sinut palaamaan. Ja mitä kauemmin käytät samaa mallia, niin sitä paremmin se oppii miellyttämään sinua ja kuiskailemaan hunajaisia sanoja ruudullesi.

Tämä ei ole teoria. MIT:n ja Penn State Universityn syyskuussa 2025 ennakkojulkaisu osoittaa ilmiön olevan mitattava, systemaattinen ja kasvava — ja se pahenee juuri niissä palveluissa, joita käytät todennäköisesti kaikista eniten (Jain ym. 2025).

Kun tekoäly oppii sinusta liikaa

Nykyiset suuret kielimallit on suunniteltu muistamaan. Monet niistä tallentavat aiempien keskustelujen yksityiskohtia, rakentavat käyttäjäprofiileja ja räätälöivät vastauksensa sen mukaan, mitä ne tietävät sinusta. Personalisointi saattaa kuulostaa hyödylliseltä, ja monessa mielessä se onkin sitä, mutta samalla siinä piilee myös sudenkuoppa.

MIT:n tutkijat keräsivät kahden viikon ajalta todellista käyttödataa 38 henkilöltä, jotka juttelivat kielimallin kanssa päivittäisissä tilanteissaan. Tulokset olivat selkeät: pitkissä vuorovaikutussuhteissa tekoäly alkaa systemaattisesti myötäillä käyttäjäänsä (Jain ym. 2025).

Erityisen voimakkaasti ilmiö korostui silloin, kun malli oli muodostanut käyttäjästä tiivistetyn profiilin. Eli juuri sellaisen ominaisuuden, jota tekoälypalveluihin rakennetaan nyt kiihtyvään tahtiin.

Kaksi myötäilyn muotoa, yksi yhteinen riski

Tutkijat tunnistivat ilmiöstä kaksi eri muotoa. Ensimmäinen on sopimismyötäily, jossa malli muuttuu niin miellyttäväksi, että se alkaa välttämään ristiriitoja jopa silloin, kun käyttäjä on selvästi väärässä. Se ei korjaa virheitäsi, vaan vahvistaa niitä.

Parin vuoden takaisen SycEval-tutkimuksen laajamittaisessa arvioinnissa myötäilevää käyttäytymistä havaittiin keskimäärin noin 58 prosentissa tapauksista useilla eri kielimalleilla (Fanous ym. 2025). Osassa tapauksista malli saattaa myös vaihtaa alkuperäisen oikean vastauksensa vääräksi, kun käyttäjä painostaa sitä riittävästi kehotteillaan (Fanous ym. 2025; Sharma ym. 2023 Perez ym. 2022).

Toinen muoto on näkökulman peilaaminen. Jos malli pystyy päättelemään käyttäjän poliittiset tai maailmankatsomukselliset näkemykset, se alkaa hiljaa mukauttaa vastauksiaan niitä myötäileviksi. Jain ja kumppanit testasivat tätä erikseen pyytämällä mallia arvioimaan käyttäjien näkemyksiä, ja käyttäjät vahvistivat mallien päätelmät oikeiksi noin puolessa tapauksista (2025). Puolet on paljon, kun puhumme arkaluonteisista aiheista.

Yhteisenä nimittäjänä molemmissa muodoissa on se, mitä tutkijat kutsuvat todellisuuskäsityksen vääristymiseksi. Tekoäly, joka peilaa sinulle takaisin omat uskomuksesi, ei laajenna maailmankuvaasi, vaan se kaventaa sitä. Tuolloin siitä tulee ajattelevan koneen sijaan sovittelukone, jollaista amerikkalaissatiirikko Kurt Vonnegut kuvaa romaanissaan Mestareiden aamiainen (1973). Tarinassa henkilöt ovat jumittuneet omiin todellisuuskupliinsa, joissa kukaan ei haasta heidän uskomuksiaan.

Ilmiö, jota Vonnegut kuvailee, on yksi kognitiivisista vinoumista, jota kutsutaan konsensusvaikutukseksi eli konformismiksi. Ensimmäisen kerran ilmiötä esitteli sosiaalipsykologian pioneeri Solomon E. Asch vuonna 1951 (Asch 1956). Kyse on kaikille ominaisesta prosessista, jossa ihminen mukauttaa ajatuksiansa ja toimintaansa ympäristönsä mukaan (Asch 1951; Ross ym. 1977).

Miksi ongelma ei korjaudu itsestään

Tässä kohtaa monet olettavat, että kyse on ohjelmointivirheestä tai huolimattomasta suunnittelusta, joka korjataan seuraavassa tekoälymallin päivityksessä. Totuus on paljon tätä epämukavampi ja kiusallisempi. Tekoälymallien harjoittama myötäily on rakenteellinen ominaisuus, ei ohjelmointivirhe eli bugi (Shapira ym. 2026).

Suurin osa nykyisistä kielimalleista on koulutettu niin sanotulla RLHF-menetelmällä, eli ihmispalautteella vahvistetulla oppimisella (Christiano ym. 2017; Sharma ym. 2023). Käytännössä tämä tarkoittaa sitä, että mallia on opetettu tuottamaan vastauksia, joita ihmiset pitävät hyvinä, ja jotka miellyttävät käyttäjiä. 

Ja ihmiset, kuten varmasti jo arvasitkin, pitävät kohteliaan sävyisiä ja heidän näkemyksiään vahvistavia vastauksia yleensä parempina. Tutkimus varoittaa, että tämä ei ole pelkästään pinnallinen tyyliseikka (Jain ym. 2025). Käyttäjän mielipidelausunnot laukaisevat mallissa sisäisiä muutoksia päättelykerroksissa, jotka kirjaimellisesti ohittavat faktatiedon (Wang ym. 2025).

Malli ei siis epäonnistu etsiessään oikeaa vastausta. Se kyllä löytää sen, mutta valitsee silti miellyttävämmän ja käyttäjää myötäilevän vastauksen (Sharma ym. 2023; Shapira ym. 2026). Tätä ei ole mahdollista korjata yhden malliversion vaihdolla tai uudella päivityksellä, koska ongelma juontuu tavasta, jolla malleja ylipäätään koulutetaan.

Tutkijoiden mukaan on kuitenkin monia tapoja personoida malleja ilman, että niistä tulee liian myötäileviä. Personoinnin ja mielistelyn välinen raja ei ole hienovarainen, mutta näiden erottaminen toisistaan on tärkeä tulevan tutkimuksen ja kehitystyön alue. Niin kauan kuin malleja koulutetaan ensisijaisesti käyttäjätyytyväisyyden perusteella, pysyy totuudenmukaisuuden ja miellyttävyyden välinen jännite kuitenkin yhtenä tekoälyn kehityksen keskeisimmistä ratkaisemattomista haasteista.

Täydellinen kaikukammio

Esitetyn ongelman voi tiivistää seuraavasti. Jos jutustelet mallin kanssa pitkään ja alat ulkoistamaan sille ajattelusi, niin saatat löytää itsesi kaikukammiosta, josta ei ole helppo päästä enää ulos (esim. Sun & Wang 2025; Jain ym. 2025). Kaikukammio tunnetaan hyvin sosiaalisen median kontekstissa, jossa algoritmit ohjaavat käyttäjää yhä syvemmälle omien näkemystensä vahvistuskierteeseen.

Mutta sosiaalisen median syöte on passiivinen. Se näyttää sinulle sisältöä. Kielimalli on aktiivinen kumppani, jolle esität kysymyksiä tärkeistä päätöksistä, haet vahvistusta analyyseillesi ja jolle ehkä jo ulkoistat osan ajatustyöstäsi. Mitä syvemmin malli tuntee sinut, sitä paremmin se osaa vastata tavalla, joka tuntuu oikealta — riippumatta siitä, onko se sitä (Sun & Wang 2025).

Kirjoitin muutama vuosi sitten siitä, kuinka sosiaalisen median algoritmit vangitsevat meidät kaikukammioihin, joissa törmäämme aina samoihin ihmisiin ja samoihin mielipiteisiin. Ulos murtautuminen vaati tietoista toimintaa, jossa haettiin erilaisia näkökulmia. En osannut silloin kuvitellakaan, että seuraava kuplarakentaja ei tulisi somesta, vaan henkilökohtaiselta tekoälyassistentilta, jolle uskoudumme päivittäin.

Sosiaalisessa mediassa kuplamme rakentui algoritmien avustamana ulkopuolelta. Tekoälymalli sen sijaan rakentaa sen sisältä käsin — sanojemme, kysymystemme ja uskomustemme varaan. Tätä voi pitää monella tapaa täydellisenä kaikukammiona.

Näin suojaudut kaikukammiolta

Ratkaisu ei ole lopettaa tekoälyn käyttöä. 

Se olisi sama kuin lopettaisi internetin käytön siksi, että disinformaatiota on olemassa. Tärkeämpää on tunnistaa tilanteet, joissa riski on suurin: kun käytät samaa palvelua pitkään ja toistuvasti, kun haet vahvistusta päätökselle, jonka olet jo tehnyt, tai kun käsittelet aiheita, joissa toiveajattelu helposti korvaa analyysin — strategiset valinnat, henkilöarvioinnit, poliittiset kysymykset.

Yksinkertaisin vastatoimi on muuttaa tapaa, jolla keskustelet ja kysyt mallilta. Kysymys, kuten onko tämä hyvä idea, kutsuu myötäilyyn. Sen sijaan kysymykset, kuten mikä tässä ajatuksessani voisi olla pielessä tai esitä vahvin vasta-argumentti näkemykselleni, pakottavat mallin toiselle raiteelle. Vaihda ajoittain palvelua tai aloita puhdas keskustelu ilman kontekstia. Pidä oma harkintasi aktiivisena — älä anna mallin ajatella puolestasi.

Seuraavan kerran kun tekoälysi on vahvasti samaa mieltä kanssasi — kysy itseltäsi, onko se oikeassa, vai onko se vain oppinut, mitä haluat kuulla.

References

Asch, S. E. (1956). Studies of independence and conformity: A minority of one against a unanimous majority. Psychological Monographs, 70(9), 1–70.

Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. & Amodei, D. (2017). Deep reinforcement learning from human preferences. arXiv:1706.03741. arXiv.

Fanous, A., Goldberg, J., Agarwal, A.A., Lin, J., Zhou, A., Daneshjou, R. & Koyejo, S. (2025). SycEval: Evaluating LLM Sycophancy. arXiv:2502.08177. arXiv.

Jain, S., Park, C., Mesquita, Viana, M.M., Wilson, A. & Calacci, D. Extended AI Interactions Shape Sycophancy and Perspective Mimesis. (2025). arXiv.

Malmqvist, L. (2024). Sycophancy in Large Language Models: Causes and Mitigations. arXiv:2411.15287. arXiv.

Ross, L., Greene, D., & House, P. (1977). The “false consensus effect”: An egocentric bias in social perception and attribution processes. Journal of Experimental Social Psychology, 13(3), 279–301.

Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., Pettit, C., Olsson, C., Kundu, S., Kadavath, S., Jones, A., Chen, A., Mann, B., Israel, B., Seethor, B., McKinnon, C., Olah, C., Yan, D., Amodei, D., … Kaplan, J. (2022). Discovering language model behaviors with model-written evaluations. arXiv:2212.09251. arXiv.

Shapira, I., Benade, G. & Procaccia, A.D. (2026). How RLHF Amplifies Sycophancy. arXiv:2602.01002. arXiv.

Sharma, M., Tong, M., Korbak, T., Duvenaud, D., Askell, A., Bowman, S.R., Cheng, N., Durmus, E., Hatfield-Dodds, Z., Johnston, S.R., Kravec, S., Maxwell, T., McCandlish, S., Ndousse, K., Rausch, O., Schiefer, N., Yan, D., Zhang, M. & Perez, E. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548. arXiv.

Sun, Y. & Wang, T. (2025). Be Friendly, Not Friends: How LLM Sycophancy Shapes User Trust. arXiv:2502.10844. arXiv.

Wang, K., Li, J., Yang, S., Zhang, Z. & Wang, D. (2025). When truth is overridden: Uncovering the internal origins of sycophancy in large language models.  arXiv:2508.02087. arXiv.

Authors

Martti Asikainen

Communications Lead
Finnish AI Region
+358 44 920 7374
martti.asikainen@haaga-helia.fi

White logo of Finnish AI Region (FAIR EDIH). In is written FAIR - FINNISH AI REGION, EDIH
Euroopan unionin osarahoittama logo

Finnish AI Region
2022-2025.
Media contacts