Tekoäly ilman pilveä – toimivatko pienet kielimallit käytännössä mobiilissa?
Älypuhelimessa pyörivä tekoäly on yhä useamman sovelluskehittäjän kiinnostuksen kohde. Opinnäytetyön tulokset osoittavat, että pienet kielimallit saavuttavat jo tänään riittävän nopeuden käytännön sovelluksiin nykyaikaisella kuluttajalaitteistolla. Nopeus ei kuitenkaan osoittautunut tekijäksi, joka mallien välillä ratkaisee.
Tekoälysovellusten yleistyessä on herännyt kysymys, täytyykö kaiken toimia pilven kautta? Pilvipohjaisessa ratkaisussa käyttäjän syöte lähetetään palvelimelle käsiteltäväksi ja vastaus palaa verkon yli takaisin. Tämä toimii monessa tilanteessa hyvin, mutta käyttäjän tiedot siirtyvät palvelimelle joka kerta kun syöte lähetetään. Arkaluonteisen tiedon kohdalla tämä on merkittävä tietoturvariski.
Pienet kielimallit tarjoavat vaihtoehdon. Pienet kielimallit ovat tekoälymalleja, jotka ovat suunniteltu toimimaan suoraan laitteella ilman verkkoyhteyttä. Tieto pysyy puhelimessa, vasteaika ei riipu palvelimen kuormasta ja tekoälymalli toimii ilman nettiä. Pienemmät mallit eivät pysty kaikkeen, mihin suuret palvelimessa toimivat laajat kielimallit, mutta moneen käyttötarkoitukseen ne riittävät. Keskeinen kysymys on ollut, ovatko ne tarpeeksi nopeita sujuvaan käyttöön?
Suorituskyky riittää sujuvaan käyttöön
Opinnäytetyön tulokset vastaavat tähän kysymykseen myönteisesti. Vertaillut mallit, Qwen2.5 ja Llama 3.2, ovat molemmat noin kolmen miljardin parametrin malleja ja tuottivat noin 15 sanaa sekunnissa kaikissa testatuissa tehtävätyypeissä. Käytännössä tämä tarkoittaa, että lyhyt vastaus syntyy muutamassa sekunnissa ja pidempikin kappale alle kymmenessä. Tätä nopeutta pidetään yleisesti riittävänä sujuvaan ja luontevaan käyttöön.
Nopeus pysyi tasaisena matematiikassa, faktakysymyksissä, koodingeneroinnissa, päättelyssä ja luovassa kirjoittamisessa. Puhelimen suoritin ei ylikuumentunut eikä sovellus kaatunut kertaakaan 250 testiajossa. Käyttö osoittautui vakaaksi pidemmässä rasituksessa.
Nopeuserot jäävät käytännössä huomaamattomiksi
Qwen2.5 oli keskimäärin 3,7 prosenttia nopeampi kuin Llama 3.2. Ero on mitattavissa, mutta käytännössä se tarkoittaa noin 0,4 sekuntia pidempää odotusaikaa pitkässä vastauksessa. Tällaista eroa ei normaalissa käytössä huomaa.
Tulos selittyy sillä, että molempien mallien suorituskyky törmää puhelimen grafiikkasuorittimen kapasiteettiin. Grafiikkasuoritin on se osa sirua, joka on optimoitu tekoälylle tyypilliseen matriisimatematiikkaan. Kun molemmat mallit täyttävät grafiikkasuorittimen kapasiteetin, niiden välinen ero jää pieneksi riippumatta mallien sisäisistä rakenteellisista eroista.
Mallivalinta kuuluu tehdä laadun perusteella
Jos nopeus on käytännössä yhtä suuri, ratkaisevaksi tekijäksi nousee vastausten laatu. Malli kannattaa valita sen perusteella, kumpi suoriutuu paremmin juuri siinä tehtävässä, johon sovellus on tarkoitettu.
Mallien tuottamien vastausten laatu ja tyyli erosivat toisistaan selvästi. Matematiikkatehtävässä Qwen2.5 tuotti lähes kolme kertaa pidemmän vastauksen kuin Llama 3.2, vaikka molemmat pääsivät oikeaan lopputulokseen. Kumpikaan malli ei siis ole yksiselitteisesti parempi, mutta käyttötarkoituksesta riippuen toinen voi soveltua paremmin.
Kehittäjän kannattaa arvioida malleja käytännössä sen perusteella, miten ne suoriutuvat sovelluksen ydintoiminnosta. Hyviä arviointikohteita ovat esimerkiksi:
- Vastauksen tarkkuus suhteessa tehtävätyyppiin
- Vastauksen pituus ja selkeys
- Mallin läpinäkyvyys (esim. koulutus tyyli, käytetty aineisto ja mallin arkkitehtuurin tiedot)
- Mallien lisenssiehdot (esim. kauppallinen käyttö)
Yksityinen tekoäly mobiilissa on mahdollista
Opinnäytetyö osoittaa, että laitteella pyörivä tekoäly on siirtynyt tulevaisuuden visiosta käytännön todellisuuteen. Nykyaikaisella älypuhelimella voidaan ajaa kielimalleja, jotka ovat riittävän nopeita, vakaita ja yksityisiä oikeisiin sovelluksiin.
Tämä avaa erityisesti mahdollisuuksia tilanteisiin, joissa käyttäjän datan yksityisyys on tärkeää tai verkkoyhteys ei ole luotettavasti saatavilla. Seuraava luonnollinen askel on selvittää, miten malleja voidaan erikoistaa tiettyyn käyttötarkoitukseen hienosäätämällä. On todennäköistä, että tarkemmassa vertailussa mallien väliset erot nousevat esiin selvemmin kuin pelkässä nopeudessa.
Lähteet
Duong, J. 2026. Benchmarking Small Language Models in a React Native Environment. Opinnäytetyö. Tieto- ja viestintätekniikka. Turku: Turun ammattikorkeakoulu. https://urn.fi/URN:NBN:fi:amk-2026051412126
Artikkelikuva: Grok (xAI) Grok Imagine.