Euroopan parlamentin taistelu tekoälyn koulutusaineistoista esitetään yleensä suurteknologian ja luovien tekijöiden välisenä kamppailuna. Mutta syvin haava saattaa osua kieliin ja perinteisiin, joita kumpikaan osapuoli ei varsinaisesti ota huomioon.
Martti Asikainen 27.3.2026 | Kuva: Adobe Stock Photos
Olen käyttänyt lukemattomia tunteja yrittäessäni saada tekoälytyökalut toimimaan meänkielellä, joka on yksi Ruotsin viidestä virallisesti tunnustetusta kansallisesta vähemmistökielestä. Meänkieltä puhutaan Suomen ja Ruotsin välisen rajan tuntumassa. Ruotsin lainsäädäntö velvoittaa viranomaisia nimenomaisesti suojelemaan ja edistämään sitä (SFS 2009:724; Euroopan neuvosto 2024; Pirinen 2025).
Kun pyydän jotakin johtavista kielimalleista kirjoittamaan kappaleen meänkielellä, niin tulokset vaihtelevat täysistä epäonnistumisista digitaalisiin olankohautuksiin. Pyydä sama englanniksi, niin se tuntee Shakespearen kuin omat taskunsa. Tämä ero ei ole tekninen sattuma, vaan ennakoitava seuraus järjestelmästä, joka on koulutettu hallitsevien kielten aineistoilla. Kyseessä on järjestelmä, jossa meänkieli ja kymmenet muut EU:n vähemmistökielet esiintyvät tuskin edes alaviitteissä.
Tämä on myös ongelma, johon Euroopan parlamentin maaliskuussa 2026 hyväksymä päätöslauselma tekijänoikeuksista ja generatiivisesta tekoälystä ei tarjoa ratkaisua. Kenelläkään ei ole edes käynyt mielessä kysyä, mitä tarkoittaa vähemmistökielen suojeleminen maailmassa, jossa digitaalinen osaaminen on yhä useammin edellytys sille, että kieli ylipäätään koetaan eläväksi ja relevantiksi. Samaan aikaan toisessa vaakakupissa on tekijöiden oikeudet tekemiinsä tuotoksiin.
Parlamentin äänestyksen jälkeen otsikot keskittyivät tuttuihin vastakkainasetteluihin: taiteilijat vastaan algoritmit, Hollywood vastaan Piilaakso, Bryssel vastaan suuret amerikkalaiset teknologiayritykset. Esittelijä Axel Voss vaati selkeämpiä sääntöjä, oikeudellista varmuutta ja korvauksia oikeudenhaltijoille. Lisäksi parlamentti edellytti parempaa avoimuutta ja luotettavien välikäsirakenteiden perustamista dokumentoinnin ja vaatimustenmukaisuuden tueksi.
Nämä ovat perusteltuja huolia. Samalla ne ovat myös huolia, joita esittävät tahot, joilla on lakimiehiä, tekijänoikeusyhteisöjä ja markkinavoimaa. Friisiläistä runoutta ei ole mainittu puheissa sanallakaan. Tämä kuulostaa tietystikin vitsiltä, mutta oikeasti sillä on enemmän merkitystä kuin ensisilmäyksellä voisi kuvitella, sillä oikeudellinen rakenne on totisinta totta, ja se toimii epäreilusti pieniä tekijöitä vastaan.
Vuoden 2019 digitaalista sisämarkkinaa koskevan tekijänoikeusdirektiivin 4 artikla loi poikkeuksen teksti- ja tiedonlouhintaan, joka piti sisällään myös lupauksen kaupallisista tarkoituksista, ellei oikeudenhaltija nimenomaisesti pidätä oikeuksiaan (EU 2019/790). Julkisesti verkossa saatavilla olevien teosten osalta tämän pidättämisen edellytetään tapahtuvan koneluettavasti: metatiedoilla, verkkosivujen käyttöehdoilla ja vastaavilla signaaleilla. Tekoälylaki lisäsi myöhemmin vaatimuksen, jonka mukaan yleiskäyttöisten tekoälymallien tarjoajien on julkaistava riittävän yksityiskohtaiset yhteenvedot koulutusaineistoistaan (EU 2024/1689).
Muodollisesti kyseessä on eräänlainen opt-out-järjestelmä. Käytännössä se toimii siten, että vastuu siirtyy yksittäisille tekijöille ja pienille instituutioille. Heidän on tunnettava säännöt, ymmärrettävä tekniset protokollat, ilmaistava oikeutensa — ja sitten jotenkin varmistettava, onko teknologiayritys varmasti noudattanut lakia (EU 2025; EUIPO 2025; Ziaja 2024).
Parlamentin oma päätöslauselma myöntää, etteivät oikeudenhaltijat tällä hetkellä pysty helposti tai tehokkaasti käyttämään opt-out-oikeuttaan, ja että nykytilanne luo rakenteellisen epätasapainon (EP 2026a). Paremmat rekisterit ja väliportaat saattaisivat auttaa marginaalisesti. Haaste on kuitenkin siinä, että ehdotettu menetelmä kuvittelee tekijänoikeuksien käsittelyn jonkinlaiseksi tasapuoliseksi kilpailukentäksi: luo jotain, pidätä oikeutesi, neuvottele lisenssi, ja saat korvauksen.
Tämä malli saattaa toimia suurille kustantajille, merkittäville musiikkiyhtiöille, kollektiiveille ja studioille, joilla on talon sisäinen lakiosasto tukenaan. Se toimii kuitenkin paljon huonommin pienelle kašubialaisen kansanmusiikin arkistolle, ladinokieliselle kirjallisuuslehdelle tai elokuvantekijälle, joka on tuottanut yhden harvoista korninkielisistä teoksista (EP 2026a, 2026b; EU 2025). Opt-out-järjestelmän suosiessa tahoja, joilla on tekninen kapasiteetti ja oikeudelliset resurssit, se valikoivasti suojelee hallitsevien kielten kulttuurituotantoa.
Eurooppa ei kuitenkaan ole vain suuria kaupallisia toimijoita. Se on myös runoilija, joka kirjoittaa võroksi, kirjailija, joka kirjoittaa aragoniaksi, suullisen perinteen ylläpitäjä, joka äänittää lauluja sorbiksi tai aromuniaksi. Euroopan unionilla on 24 virallista kieltä, mutta sen sisällä on myös noin 60 alue- ja vähemmistökieltä, joista monet ovat haavoittuvia tai uhanalaisia (Pasikowska-Schnass 2020, 2016; Council of Europe 1992/1998). Näiden tekijöiden kannalta ehdotettu järjestelmä ei ole vain epäkäytännöllinen. Se on toiminnallisesti täysin näkymätön.
Tekoälyn kielimallit oppivat datasta. Data, jolla niitä koulutetaan, muokkaa paitsi niiden kykyjä myös käsitystä siitä, mikä on normaalia, tärkeää ja ilmaisemisen arvoista. Internetin kielenkäyttö on tätä nykyä voimakkaasti keskittynyttä. Pelkästään englanti yksin muodostaa noin puolet kaikista verkkosivuista, joiden sisältökieli on tunnistettavissa (W3Techs 2026).
Tutkimukset ovat yksiselitteisiä. Vähäresurssisilla ja marginalisoiduilla kielillä on heikommat aineistot, huonommat vertailustandardit ja merkittävästi heikompi mallisuorituskyky kuin suurresurssisilla kielillä (Grützner-Zahn & Rehm 2024; OECD 2023; Zhong ym. 2024; Alam ym. 2024; Micallef ym. 2025; Nuha ym. 2026). Tämän seuraukset eivät rajoitu kuitenkaan pelkkiin asiantuntijoihin ja harrastelijoihin, vaan meistä jokaiseen.
Kun lapset, opettajat ja tavalliset käyttäjät kääntyvät yhä enemmän tekoälyavustajien puoleen tutkiakseen kirjallisuutta, historiaa ja kulttuurista identiteettiään, se perintö, johon he törmäävät, on valtaväestön perintö, joka on hyvin edustettuna koulutusaineistossa. Muu uhkaa muuttua vaikeammin löydettäväksi, vaikeammin tuotettavaksi, vaikeammin haettavaksi — ja siksi helpommin ohitettavaksi. Etenkin, kun tekoälymallit valtaavat alaa Google Searching kaltaisilta perinteisemmiltä hakukoneilta.
Kielet eivät katoa vain silloin, kun ihmiset lakkaavat puhumasta niitä. Ne katoavat, kun ne lakkaavat olemasta hyödyllisiä niissä instituutioissa ja välineissä, joiden ympärillä jokapäiväinen elämämme ja arkemme toimii. Hakutoiminnot, kääntäminen, kirjoitusapu, koulutus, hallinto ja viihde välittyvät yhä enemmän tekoälyn kautta. Jos nämä järjestelmät eivät tue jotakin kieltä, niin käyttäjät kokevat kielien olevan tarpeettomia, vaillinaisia, vajavaisia ja ehkä jopa vanhanaikaisia.
Tämä ei kuitenkaan tapahdu hetkessä. Kokemukset kertyvät vuorovaikutus vuorovaikutukselta, kun sorbialaiskirjailija huomaa, ettei kielimallit pysty luotettavasti tukemaan hänen työtään. Tai saamelaismuusikko tajuaa, etteivät hänen äänitteensä esiinny minkään tekoälyn koulutusaineistossa, eikä aromunialainen lauluntekijä onnistu kääntämään sanoituksiaan uskottavasti. Nämä eivät ole yksittäistapauksia, jotka siivotaan myöhemmin, vaan osa paljon suurempaa ongelmaa, johon ei ole ratkaisua markkinavetoisessa maailmassa.
Parlamentin päätöslauselma kytkee nimenomaisesti tekijänoikeuden, luovuuden ja Euroopan kulttuurisen monimuotoisuuden toisiinsa (EP 2026a). Euroopan neuvoston kielellinen kehys on olemassa juuri siksi, että alue- ja vähemmistökielet vaativat aktiivista tukea pysyäkseen elävänä osana eurooppalaista kulttuurista identiteettiä (Council of Europe 1992/1998). Silti markkinakeskeinen järjestelmä tekoälyn lisensoinnissa ja opt-out-oikeuksissa suosii luonnostaan niitä, joilla on jo mittakaava — mikä tarkoittaa, että se suosii hallitsevia kieliä, suuria oikeudenhaltijoita ja hyvin resursoituja tekijänoikeusyhteisöjä.
Markkinat eivät tule ratkaisemaan tätä ongelmaa. Kulttuuripolitiikassa on huomattu jo vuosikymmeniä sitten, etteivät markkinat yksin kykene säilyttämään kielellistä monimuotoisuutta, koska pienten kielten kysyntä on vähäisempää. Juuri siksi aktiiviset julkiset tukimekanismit ovat olemassa. Tekoälyä koskeva tekijänoikeuskeskustelu ei ole vielä herännyt tähän. Sen pitäisi.
Ratkaisut eivät ole käsitteellisesti monimutkaisia, vaikka ne ovatkin poliittisesti hankalia. Rekisterimekanismeilla pitäisi olla aktiivinen kulttuurisen suojelun tehtävä pelkän passiivinen vaatimustenmukaisuustehtävän mukaan. Ehdotettu avoimuusrekisteri, joka on suunniteltu auttamaan suuria oikeudenhaltijoita dokumentoimaan opt-out-oikeutensa myös palvelee käytännössä vain suuria oikeudenhaltijoita.
Jos sama infrastruktuuri suunniteltaisiin alusta alkaen sisältämään luettelointitukea vähemmistökielisille arkistoille, kuten esimerkiksi teknisen avun ja monikielisen opastuksen kera, se voisi palvella koko eurooppalaista kulttuuriekosysteemiä. Käytännössä tämä tarkoittaisi esimerkiksi sitä, että ladinokielinen kirjallisuuslehti tai meänkielinen äänitearkisto pystyisi rekisteröimään aineistonsa ja ilmaisemaan opt-out-oikeutensa ilman lakimiestä tai IT-asiantuntijaa. Tällä hetkellä tämä ei ole realistista kummallekaan.
Lisäksi voisi pohtia, että osa tekoälyn tekijänoikeussovitteluista kertyvistä lisensointituloista sijoitettaisiin takaisin kulttuuriseen monimuotoisuuteen. Ajatus ei ole eksoottinen. Kohdennettu rahasto digitoinnille, aineistojen rakentamiselle, koulutusmateriaalille ja luovalle tuotannolle alue- ja vähemmistökielillä olisi linjassa EU:n jo tekemien sitoumusten kanssa. Tällä hetkellä puuttuu vain kytkentä, sillä raha tulee teknologiayrityksiltä, jotka kouluttavat mallejaan eurooppalaisella kulttuuriperinnöllä, mutta osa siitä ei palaa koskaan takaisin. Tämä kytkentä voitaisiin tehdä näkyväksi.
EU:n pitäisi kohdella digitaalista käytettävyyttä kielen eloonjäämisen kysymyksenä pelkän kielipolitiikan sijaan. Kuolleen kielen henkiinherättäminen on paljon haastavampaa kuin kuolevan kielen elvyttäminen. Myös aiempi työ vähäkäyttöisten kielten digitaalisesta selviytymisestä on päätynyt tähän tulokseen: jos kieli puuttuu digitaalisen elämän infrastruktuurista, sitä on vaikea ylläpitää elävänä välineenä (Pasikowska-Schnass 2020).
Tekoälyavustajien aikakaudella tämä logiikka terävöityy entisestään. Jos EU:ssa käytettävät mallit suoriutuvat järjestelmällisesti heikosti Euroopan omissa tunnustetuissa vähemmistökielissä, niin se ei ole neutraali tekninen tulos. Se on politiikan epäonnistuminen. Sellainen, joka voidaan nimetä ja korjata ennen kuin vahinko muuttuu peruuttamattomaksi (Grützner-Zahn & Rehm 2024; Pirinen 2025). Mikään tästä ei edellytä parlamentin rakentaman tekijänoikeuskehyksen purkamista, vaan sitä, että kehys suunnitellaan pitäen mielessä koko eurooppalaisten tekijöiden kirjo — ei vain ne, joilla on varaa neuvotella.
EU:n tekoälyn tekijänoikeuskeskustelussa on pohjimmiltaan kyse siitä, kuka hyötyy tekoälysiirtymästä ja kuka jää sen ulkopuolelle. Äänekkäimmät osallistujat ovat hyvin resursoituja, tiiviisti organisoituneita ja ylivoimaisesti suurten kielten arkkitehtuuriin upottautuneita. He saavat todennäköisesti jonkinlaisen sovitteluratkaisun.
Kysymys on lopulta siitä, muistaako EU samalla sen, mitä se on toistuvasti korostanut omissa sitoumuksissaan. Euroopan kielet eivät ole reliikkejä vaan eläviä välineitä, jotka kantavat jokapäiväistä elämää ja rakentavat kulttuuria ympärillämme. Tämä keskustelu on käytävä tekijänoikeuskeskustelun sisällä. Ennen kuin aineistot sinetöidään, ennen kuin rekisterit vahvistetaan, ennen kuin lisensointirakenteet muuttuvat oletusarkkitehtuuriksi.
Kun kieli katoaa digitaalisen aikakauden infrastruktuurista, niin mikään lainsäädäntö ei kykene enää palauttamaan sitä. Jos meänkieli ei toimi moderneissa työvälineissä, niin se alkaa nuorten silmissä näyttämään tarpeettomalta. Ja siltä se näyttää erityisesti niiden silmissä, jotka vasta opettelevat, mitä kielellä voi tehdä.
Alam, F., Hettiarachchi, H., Braud, C., Rani, P., Uyangodage, L., Abdul-Mageed, M., & Nakov, P. (2024). LLMs for low resource languages in multilingual settings: Tutorial. Association for Computational Linguistics. https://aclanthology.org/2024.eacl-tutorials.5/
Council of Europe. (1992/1998). European Charter for Regional or Minority Languages. https://rm.coe.int/16800cb5e5
Council of Europe. (2024). Eighth evaluation report on Sweden. https://rm.coe.int/sweden-eval-iria-8-en/1680aee227
European Parliament (EP). (2026a, maaliskuu 10). Copyright and generative artificial intelligence — opportunities and challenges (Resolution P10_TA(2026)0066). https://www.europarl.europa.eu/doceo/document/TA-10-2026-0066_EN.html
European Parliament (EP). (2026b, maaliskuu 10). Protecting copyrighted work and the EU’s creative sector in the age of AI (Press release). https://www.europarl.europa.eu/news/en/press-room/20260306IPR37511
European Union (EU). (2019). Directive (EU) 2019/790 on copyright and related rights in the Digital Single Market. https://eur-lex.europa.eu/eli/dir/2019/790/oj
European Union (EU). (2024). Regulation (EU) 2024/1689 laying down harmonised rules on artificial intelligence. https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:32024R1689
European Union (EU). (2025). Generative AI and copyright: Training, creation, regulation. European Parliament. https://www.europarl.europa.eu/RegData/etudes/STUD/2025/774095/IUST_STU(2025)774095_EN.pdf
European Union Intellectual Property Office (EUIPO). (2025). The development of generative artificial intelligence from a copyright perspective. https://www.euipo.europa.eu/en/publications/genai-from-a-copyright-perspective-2025
Grützner-Zahn, A., & Rehm, G. (2024). Surveying the technology support of languages. Association for Computational Linguistics. https://aclanthology.org/2024.tdle-1.1.pdf
Micallef, K., Gatt, A., & van der Plas, L. (2025). Benchmarking large language models against smaller language-specific models on Maltese. https://aclanthology.org/2025.findings-acl.1053.pdf
Nuha, U., Fersini, E., & Passarotti, M. (2026). Towards the first NLP benchmark for Ladin. https://aclanthology.org/2026.findings-eacl.55/
OECD. (2023). AI language models: Technological, socio-economic and policy considerations. OECD Publishing. https://www.oecd.org/content/dam/oecd/en/publications/reports/2023/04/ai-language-models_46d9d9b4/13d38f92-en.pdf
Pasikowska-Schnass, M. (2016). Regional and minority languages in the European Union. European Parliamentary Research Service. https://www.europarl.europa.eu/EPRS/EPRS-Briefing-589794-Regional-minority-languages-EU-FINAL.pdf
Pasikowska-Schnass, M. (2020). Digital survival of lesser-used languages. European Parliamentary Research Service. https://www.europarl.europa.eu/RegData/etudes/BRIE/2020/652086/EPRS_BRI(2020)652086_EN.pdf
Pirinen, F. A. (2025). Language technology for the minority Finnic languages. https://aclanthology.org/2025.iwclul-1.6.pdf
SFS 2009:724 (2009). Lag om nationella minoriteter och minoritetsspråk. https://www.government.se/contentassets/16ba706f40854a87b910941caf3891d1/language-act-in-english.pdf
W3Techs. (2026). Usage statistics of content languages for websites. https://w3techs.com/technologies/overview/content_language
Zhong, T., et al. (2024). Opportunities and challenges of large language models for low-resource languages in humanities research. https://arxiv.org/pdf/2412.04497
Ziaja, G. M. (2024). Text and data mining opt-out in Article 4(3) CDSMD. Journal of Intellectual Property Law & Practice, 19(5), 453–466.
Communications Lead
Finnish AI Region
+358 44 920 7374
martti.asikainen@haaga-helia.fi
Tämä kirjoitus on luotu osana Tekoäly ja yhdenvertaisuus työyhteisöissä -hanketta (ReiluAI), jonka rahoittajina toimivat Haaga-Helia ammattikorkeakoulu ja Työsuojelurahasto.
Finnish AI Region
2022-2025.
Media contacts