EU:n tukema TildeOpen päihittää jättimallit pienissä eurooppalaisissa kielissä

Latvialainen yritys on kehittänyt kielimallin, joka päihittää markkinajohtajat pienissä eurooppalaisissa kielissä. Tekijöiden mukaan TildeOpen suojaa käyttäjiä myös venäläiseltä disinformaatiolta.

Teksti Martti Asikainen, 3.10.2025 | Kuva Adobe Stock Photos

Latvialainen Tilde on julkaissut TildeOpen-kielimallin, joka on koulutettu Suomessa sijaitsevalla Euroopan tehokkaimmalla supertietokone LUMIlla. Avoimen lähdekoodin malliin on rakennettu suojamekanismit venäläistä disinformaatiota vastaan.

Tilde Research Labin 12 hengen tiimi kehitti 30 miljardin parametrin mallin murto-osalla siitä, mitä vastaavat hankkeet yleensä maksavat. Malli toimii etenkin pienissä eurooppalaisissa kielissä paremmin kuin kansainväliset kilpailijat.

Pienemmät kielet tasa-arvoisiksi

Useimmat kaupalliset tekoälymallit on koulutettu pääosin englannilla, minkä vuoksi ne toimivat heikosti pienemmillä eurooppalaisilla kielissä. TildeOpen tukee 34 eri kieltä. Käytännössä tämä tarkoittaa kaikkia EU:n 24 virallista kieltä sekä Balkanin kieliä, islantia, norjaa, turkkia ja ukrainaa.

Tietojen mukaan TildeOpen-30B saavutti julkisissa testeissä luetun ymmärtämisen Belebele-testissä keskimäärin 84,7 prosentin tarkkuuden. Siten se voitti muut avoimen lähdekoodin mallit, kuten Gemma-27B:n, ALIA-40B:n ja EuroLLM-22B:n.

Islannissa malli saavutti jopa 85,7 prosentin tarkkuuden, kun Gemman tulos oli vain 70,8 prosenttia. Suomessa TildeOpenin tarkkuus oli 85,0 prosenttia, kun EuroLLM:llä se oli 84,3 prosenttia.

Morfologisesti monimutkaisten kielten huomioon ottava rakenne tekee TildeOpenista poikkeuksellisen tehokkaan. Malli oli jopa 41 % tehokkaampi latviassa, 37 % liettuassa ja 31 % suomessa verrattuna LLaMA-3:een. TildeOpen päihitti lisäksi sekä OpenAI:n GPT-4o:n että Mistralin.

Suojaa disinformaatiolta

TildeOpen eroaa muista malleista myös siten, että se sisältää erikoissuojauksen disinformaatiota ja propagandaa vastaan. Tutkimusten mukaan Venäjän valtion tukema disinformaatio on päätynyt moniin globaaleihin tekoälymalleihin, jonka vaikutus luottamukseen ja yhteiskunnalliseen päätöksentekoon voi olla huomattava.

Disinformaatiota ja propagandaa kitkeäkseen Tilde teki yhteistyötä median seurantaviranomaisten kanssa suodattaakseen disinformaation pois koulutusaineistosta. Aihemallinnuksen avulla Kremlin hallitsemista lähteistä poistettiin poliittisesti arkaluonteinen sisältö.

TildeOpenia voidaan käyttää paikallisesti tai luotetuissa eurooppalaisissa pilvissä, toisin kuin ulkomailla ylläpidetyt mallit. Tämä varmistaa täyden yhteensopivuuden EU:n tietosuojastandardien, tekoälylain ja tulevan yleiskäyttöisen tekoälyn käytännesäännöstön kanssa.

Euroopan oma kielimalli

TildeOpen on yksi ensimmäisistä tuloksista EU-komission hankkeesta, jossa supertietokoneet avataan startup- ja pk-yrityksille. Marraskuussa 2023 käynnistetty Large AI Grand Challenge myönsi Tildelle 250 000 euron rahoituksen ja kaksi miljoonaa GPU-tuntia LUMI-supertietokoneella.

Tilden toimitusjohtaja Artūrs Vasiļevskisin mukaan EU ei voi olla koskaan todella itsenäinen, jos olemme riippuvaisia englanninkielisistä ja muualla luoduista kielimalleista.

— TildeOpen todistaa, että Eurooppa kykenee luomaan omia huippumalleja, jotka ovat turvallisia, monikielisiä ja rakennettu ainutlaatuista kielellista monimuotoisuuttamme varten, hän toteaa.

Tilde laajentaa parhaillaan TildeOpenin kontekstipituutta 8 000 tokenista 64 000 tokeniin käyttäen LUMIssa jäljellä olevia laskentaresursseja. Tiimi valmistelee myös erikoisversioita muun muassa oikeudelliseen kääntämiseen ja sähköisiin julkisiin palveluihin.

TildeOpen on saatavilla Hugging Face -alustalla CC-BY-4.0-lisenssillä tutkijoiden, yliopistojen, startup-yritysten, julkishallinnon ja yritysten vapaaseen käyttöön.

Finnish AI Region
2022-2025.
Media contacts