Tekoäly voi neuvoa, kirjoittaa ja selittää – mutta entä jos se alkaa valehdella? LLM-groomaus on yleistyvä ilmiö, jossa kielimalleja manipuloidaan toistamaan propagandaa ja disinformaatiota. Kehityksellä voi olla vakavia seurauksia tiedon luotettavuudelle.
Martti Asikainen 1.6.2025 (päivitetty 6.6.2025)
Kuvittele tilanne, jossa yrityksesi asiakaspalvelubotti alkaa yllättäen toistelemaan oudon värikkäitä väitteitä tuotteistasi tai maailman tapahtumista. Taustalla voi piillä ilmiö nimeltä LLM-groomaus, jossa uhrin sijaan manipuloidaan suurta kielimallia (eng. large language model, LLM), jotta se tarjoaisi vääristeltyjä näkökulmia eli disinformaatiota.
Tämä tapahtuu syöttämällä sille tarkoituksellisesti vinoutunutta, vääristelevää tai harhaanjohtavaa sisältöä joko käyttöliittymän kautta tapahtuvan syötteen manipulaation muodossa tai osana sen koulutusaineistoa. Tavoitteena on saada malli toistamaan tietyntyyppisiä viestejä, maailmankuvia tai jopa propagandistisia väitteitä, jotka saattavat alkujaan olla hyvin marginaalisia, mutta saada sitten uskottavuutta tekoälyn välityksellä. (ASP 2025)
Pohjoismaisen faktantarkastajaverkosto EDMO NORDISin tekemän selvityksen mukaan venäläinen propaganda on jo nyt soluttautunut suuriin kielimalleihin lähteinä käytettyjen Pravda-verkoston kautta (Faktabaari 2025). Kun kielimalli kohtaa samat valheelliset väitteet lukemattomia kertoja eri lähteissä, ne alkavat painaa vaakakupissa yhä enemmän – lopulta jopa enemmän kuin totuudenmukaiset tiedot samasta aiheesta.
Syötemanipulaatio voi kuulostaa paljon monimutkaisemmalta kuin se todellisuudessa on. Käytännössä kyse on toiminnasta, jossa käyttäjä antaa kielimallille ohjeita, jotka pyrkivät ohittamaan sen sisäänrakennetut suodattimet tai turvamekanismit. Yksi tyypillisimpiä menetelmiä on naamioida disinformaatio ja propaganda osaksi muuta viestintää tai esittää ohjeita epäsuorasti, jolloin malli ei tunnista sisältöä haitalliseksi.
Tämä tapahtuu esimerkiksi siten, että mallia pyydetään kirjoittamaan tekstejä vain tiettyjen, epärelevanttien lähteiden perusteella, jolloin se saattaa alkaa painottamaan harhaanjohtavia väitteitä ilman selkeää lähdekritiikkiä. Kun toimintaan valjastetaan kokonainen bottiarmeija, kielimallin käyttämä data saastuu, harhaanjohtavien väitteiden luotettavuus kielimallissa lisääntyy ja samalla niiden tarjoaminen vastauksena yleistyy. Näin pahantahtoinen toimija voi ujuttaa vahingollista tietoa keskelle muuten luotettavalta vaikuttavaa tekstiä.
LLM-groomaus kytkeytyy läheisesti tekoälyn haavoittuvuuteen ja sen luonteeseen tilastollisena kielimallina. Vaikka malli ei ymmärrä maailmaa ihmisen tavoin, se tuottaa vastauksia ennustamalla tilastollisesti todennäköisimpiä sanayhdistelmiä. Tässä piilee myös sen akilleen kantapää: jos harhaanjohtavaa tietoa esiintyy toistuvasti mallin koulutusaineistossa tai sitä esitetään johdonmukaisesti vakuuttavassa muodossa, malli ei kykene erottamaan sitä luotettavasta tiedosta.
Toinen konkreettinen tapa on julkaista verkkoon tuhansittain tekaistuja artikkeleita sadoilla eri sivustoilla. Usein vieläpä siten, että ne on generoitu tekoälyn avulla, joka vahvistaa vaikutusta entisestään. Vaikka näitä valetarinoita lukisikin vain harvat ihmiset, niin hakukoneiden indeksoijat keräävät ne massiivisiin tekstiaineistoihin, joilla tekoälyjä koulutetaan. Monet kielimallit oppivat ainakin osittain avoimista verkkolähteistä, jolloin väärä tieto voi kulkeutua huomaamatta osaksi niiden koulutusdataa ja ”maailmankuvaa” (esim. Carlini et al. 2023; Qiang et al. 2024; Zhou et al. 2025)
Tutkimukset ovat osoittaneet kokeellisesti, että tällainen vaikuttaminen on mahdollista ja jopa yllättävän helppoa (esim. Carlini et al. 2023; Mektrakarn 2025). Jopa 60 dollarin budjetti voi riittää hyökkäyksen tekemiseen, kun se käytetään vanhentuneiden verkkotunnusten ostamiseen (Carlini et al. 2023). On siis täysin mahdollista, että tekoäly alkaa toistamaan disinformaatiota neutraalin asiantuntijan äänellä – ilman että käyttäjä osaa epäillä mitään.
Kielimallien groomaus hyökkää suoraan teknologian ytimeen – tuotteisiin, brändiin ja päätöksentekoon. Ensinnäkin groomaus voi vaikuttaa yrityksen brändimielikuvaan, jos sen chatbot tai jokin muu tekoälypohjainen palvelu alkaa levittämään virheellistä ja sopimatonta sisältöä. Kuvittele tilanne, jossa virtuaaliassistenttinne antaa räikeän paikkansapitämättömiä terveysneuvoja tai toistaa vihamielistä propagandaa.
PR-kriisi olisi välitön ja tuhoisa. Pahimmassa tapauksessa yrityksen maine ja uskottavuus voivat kärsiä pysyviä vaurioita, kun asiakkaat menettävät luottamuksensa siihen, että yritys kykenee hallitsemaan omia teknologiaratkaisujaan.
Toisekseen groomaus uhkaa tuotteen luotettavuutta ja toimintavarmuutta. Haitallisesti manipuloitu malli voi antaa virheellisiä vastauksia tai “hallusinaatioita” entistä useammin. Pahimmillaan malli voi sisältää takaoven, jolloin se toimii normaalisti, kunnes jokin tietty laukaisu ilmenee syötteessä, ja sitten sen käytös muuttuu radikaalisti. Tällainen piilotettu “nukkuva agentti” olisi yritykselle painajainen, sillä sitä on vaikea havaita testaamalla.
Kolmanneksi sisäinen päätöksenteko ja tiedolla johtaminen voivat kärsiä. Monet yritykset hyödyntävät suuria kielimalleja datan analysoinnissa, raporttien luonnissa sekä koodin tuottamisessa. Jos tällaisen mallin tietopohja on saastunut, myös johdolle tai työntekijöille annetut suositukset ja analyysit vääristyvät. Kuvittele yritys, joka tekee strategisia päätöksiä tekoälyn tuottaman markkina-analyysin perusteella – jos tekoälyä on groomattu suosimaan kilpailijan tuotteita tai vääristelemään tilastoja, seuraukset voivat olla kalliita.
Kielimallien groomaus ei ole pelkästään valtiollisten trollitehtaiden ja bottiarmeijoiden temmellyskenttä. Uhka voi tulla myös kilpailijalta. Yhtä lailla kilpaileva yritys voi syöttää tietoisesti harhaanjohtavaa sisältöä juuri sinun yrityksestäsi. Lisäksi se voi manipuloida ChatGPT:n, Clauden tai Geminin kaltaisen kielimallin suosittelemaan omaa yritystään. Tekoälyn saastumisen vaikutukset voivat olla dramaattiset. Esimerkiksi ChatGPT:llä on lähes 800 miljoonaa kuukausittaista käyttäjää (Nolan 2025).
Hyvin ja strategisesti tähdätyllä viestinnällä voi kääntää chatbotin sanoman – oli kyse sitten valtion propagandasta, poliittisesta mustamaalauksesta tai yrityskilpailijan halusta vaikuttaa brändiisi. Hyvä uutinen on se, että ilmiöön voi varautua konkreettisilla toimilla. Alapuolelle on koottu parhaita käytäntöjä, joilla teknologiayritykset voivat suojella mallejaan groomaukselta:
Datan huolellinen hallinta, tekniset suojaukset, jatkuva testaus sekä ihmisten valppaus – auttavat yritystäsi pitämään kielimallit kurissa ja luotettavina. Samalla ne suojaavat sekä teknologiainvestointejanne että mainettanne. Julkisten mallien kohdalla on tärkeää varmistaa, mihin lähteisiin ne perustavat väitteensä. Terve kriittisyys on siis tarpeen. Jäljitettävyys ja auditointi auttavat myös tunnistamaan manipuloinnin jälkikäteen.
Myös medialukutaito on avainasemassa, jotta käyttäjä kykenee arvioimaan tekoälyn tarjoamia lähteitä ja vastauksia kriittisesti. Medialukutaidolla tarkoitetaan taitoa käyttää, lukea, ymmärtää, tulkita ja arvioida kriittisesti erilaisia mediasisältöjä ja verkkosivuja. Promptaamisen opettelustakaan ei ole haittaa virheellisten väittämien arvioinnissa. Tärkeintä on, että käyttäjä muistaa kysyä, mihin lähteisiin tekoäly väittämänsä perustaa, ja miten hän on tullut kyseiseen johtopäätökseen.
Esimerkiksi NewsGuard-järjestön tutkijat huomasivat, että jopa yli kolmasosa kielimallien vastauksista sisälsi Venäjää tukevia harhaanjohtavia väitteitä (McKenzie & Isis 2025). Taustalla on tutkijoiden mukaan Moskovassa toimiva Pravda-verkosto, joka levittää Kremlin näkemyksiä osana informaatiovaikuttamisen kampanjoitaan laajasti eri puolille maailmaa. Lienee sanomattakin selvää, että jos kielimalli alkaa toistamaan salaliittoteorioita, kyseenalaistaa vaalituloksia tai esittää rokotevastaisia väitteitä uskottavana tietona, niin vaikutus yhteiskunnalliseen luottamukseen ja päätöksentekoon voi olla mittava.
Bulletin of the Atomic Scientists -lehdessä julkaistun artikkelin mukaan Pravda-verkosto kattaa 182 internet-verkkotunnusta ja aliverkkotunnusta, jotka kohdistuvat 74 maahan ja alueeseen 12 kielellä, ja sen arvioitu vuotuinen tuotanto on vähintään 3,6 miljoonaa Venäjä-myönteistä artikkelia (Newport & Jankowicz 2025). Erityisen ongelmallista tämä on siksi, että huomattava osa kielimallien käyttäjistä ei tarkista tekoälyltä saamaansa tietoa muista lähteistä (esim. Jacob et al. 2025; Si et al. 2023).
Tutkimukset ovat osoittaneet, että ihmiset ovat taipuvaisia yliarvioimaan kielimallien asiantuntemusta, joka näkyy erityisesti silloin, kun vastaus on sujuvasti ja vakuuttavasti muotoiltu (Zou et al., 2023; Ovide 2025). Lisäksi ne ovat koulutettu tuottamaan kieltä tavalla, joka saa ne vaikuttamaan empaattisilta, hyväksyviltä ja kuuntelevilta, joka saa käyttäjän kokemaan syvää luottamusta, vaikka kyse on simuloidusta ymmärryksestä (Ennis-O’Connor 2024).
Edellä mainituista syistä kysymys LLM-groomauksesta ei ole vain tekninen, vaan se on syvästi yhteiskunnallinen. Jos tekoälyä voidaan manipuloida ihmisen tapaan, mutta paljon ihmistä nopeammin ja laajemmassa mittakaavassa, niin meillä on edessämme täysin uudenlainen informaatiovaikuttamisen aikakausi. Tämä kehitys haastaa kaikki perinteiset käsityksemme siitä, miten tieto leviää ja miten mielipiteitä muokataan. Toisaalta, jos kielimallien suodattimet viritetään liian tiukalle, niin uhkana on, että samalla katoaa jotain ainutlaatuista niiden hyödyllisyydestä ja tarpeellisuudesta.
TKI-viestinnän asiantuntija, tekoälykouluttaja
+358 44 920 7374
martti.asikainen@haaga-helia.fi
Haaga-Helia ammattikorkeakoulu
Kirjoittaja on Haaga-Helia ammattikorkeakoulun viestinnän asiantuntija ja tekoälykouluttaja, SOMA-verkoston jäsen (Social Observatory for Disinformation and Social Media Analysis) sekä palkitun Faktabaarin entinen faktantarkistaja.
American Sunlight Project. (2025). A Pro-Russia Content Network Foreshadows the Auomated Future of Info Ops. Sunlight Foundation. Washington.
Carlini, N., Jagielski, M., Choquette-Choo, C.A., Paleka, D., Pearce, W., Anderson, H., Terzis, A., Thomas, K. & Tramér, F. (2023). Poisoning Web-Scale Training Datasets is Practical. arXiv. Cornellin yliopisto.
D’Alessandro, M.A. (2024). Data Poisoning attacks on Enterprise LLM applications: AI risks, detection, and prevention. Julkaistu Giskardin sivuilla 25.4.2024. Viitattu 30.5.2025.
Ennis-O’Connor, M. (2024). The AI Empathy Paradox: Can Machines Understand What They Cannot Feel?. Julkaistu Mediumissa 23.12.2024. Viitattu 30.5.2025.
Faktabaari (2025). Venäjä on soluttanut propagandaansa tekoälymalleihin pohjoismaisilla kielillä. Julkaistu Faktabaarin verkkosivuilla 28.5.2025. Viitattu 30.5.2025.
Jacob, C., Kerrigan, P. & Bastos, M. (2025) The chat-chamber effect. Trusting the AI hallucination. Big Data & Society, 12(1). Sage Journals.
McKenzie, S. & Isis, B. (2025). A Well-funded Moscow-based Global ‘News’ Network has Infected Western Artificial Intelligence Tools Worldwide with Russian Propaganda. Julkaistu NewsGuardin verkkosivuilla 6.3.2025. Viitattu 28.5.2025.
Mektrakarn, T. (2025). OWASP Top 10 LLM & Gen AI
Vulnerabilities in 2025. Julkaistu Bright Defencen verkkosivuilla 6.5.2025. Viitattu 28.5.2025.
Newport, A. & Jankowicz, N. (2025). Russian networks flood the Internet with propaganda, aiming to corrupt AI chatbots. Julkaistu Bulletin of Atomic Scientististin verkkosivuilla 26.3.2025. Viitattu 28.5.2025.
Nolan, B. (2025). Sam Altman says ‘10% of the world now uses our systems a lot’ as Studio Ghibli-style AI images help boost OpenAI signups. Julkaistu Fortunen verkkosivuilla 14.4.2025. Viitattu 30.5.2025.
Ovide, S. (2025). You are hardwired to blindly trust AI. Here’s how to fight it. Julkaistu Washington Postin verkkosivuilla 3.6.2025. Viitattu 6.6.2025.
OWASP Foundation. (2025). LM04:2025 Data and Model Poisoning. Julkaistu OWASP Foundationin verkkosivuilla. Viitattu 30.5.2025.
Qiang, Y., Zhou, X., Zade, S.Z., Roshani, M. A., Khanduri, P., Zytko, D. & Zhu, D. (2024). Learning to Poison Large Language Models During Instruction Tuning. arXiv. Cornellin yliopisto.
Ruchira, R. & Bhalani, R. (2024). Mitigating Exaggerated Safety in Large Language Models. arXiv. Cornellin yliopisto.
Si, C., Goyal, N., Wu, S.T., Zhao, C., Feng, S., Daume, H. & Boyd-Graber, J. (2023). Large Language Models Help Humans Verify Truthfulness — Except When They Are Convincingly Wrong. arXiv. Cornellin yliopisto.
Zhou, X., Qiang, Y., Roshani, M. A., Khanduri, P., Zytko, D. & Zhu, D. (2025). Learning to Poison Large Language Models for Downstream Manipulation. arXiv. Cornellin yliopisto.
Zou, A., Wang, Z., Carlini, N., Nars, M., Kolter, J.Z. & Fredrikson, M. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv. Cornellin yliopisto.
Finnish AI Region
2022-2025.
Media contacts