Voiko tekoäly arvioida intubointisuoritusta?
Tekoälyä hyödynnetään yhä enemmän myös lääketieteen opetuksessa. Intubaatiosuoritusten arviointi perustuu usein videoihin, mutta niiden läpikäyminen on aikaa vievää. Yhteistyössä Solita Oy:n kanssa toteutetussa opinnäytetyössä selvitettiin, pystyvätkö nykyiset tekoälymallit analysoimaan intubointivideoita ja tukemaan arviointiprosessia.
Intuboinnin opetuksessa hyödynnetään yhä enemmän videoaineistoja palautteenannossa opiskelijalle. Intubaatiolla tarkoitetaan toimenpidettä, jossa hengitystie turvataan viemällä putki henkitorveen, jotta potilaan hengitys voidaan varmistaa.
Opiskelijoiden intubaatiosuorituksen arviointi tapahtuu usein videoiden kautta ja opiskelijan kokonaisen suorituksen arviointi voi kestää pitkään, mikä tekee arvioinnista suurilla ryhmillä erittäin kuormittavaa. Tämän vuoksi arviointia tukeville ratkaisuille on tarvetta. Tekoäly voi tarjota mahdollisuuksia keventää opettajien arviointityökuormaa suurissa opiskelijaryhmissä, parantaa arvioinnin läpinäkyvyyttä ja yhdenmukaisuutta, kuitenkin niin, että vastuu arvioinnista säilyy ihmisasiantuntijalla.
Tekoälymallit testissä
Työssä tutkittiin, pystyvätkö multimodaaliset tekoälymallit analysoimaan intubointivideoita ilman erillistä koulutusta ja tunnistamaan, onko toimenpide suoritettu oikein. Tarkoituksena ei ollut korvata opettajaa, vaan selvittää, voisiko tekoäly toimia arvioinnin tukena, tehostaa työskentelyä ja säästää aikaa toistuvissa arviointitehtävissä.
Työssä käytettiin kahta tekoälymallia, jotka olivat ChatGPT ja Gemini. Paikallinen LLaVA-malli rajattiin pois analyysista sen rajallisen suorituskyvyn vuoksi. Mallit analysoivat kuusi intubaatiovideota, jotka sisälsivät sekä onnistuneita että epäonnistuneita suorituksia.
Mallien välillä selviä eroja
Tulokset osoittivat selkeitä eroja mallien välillä. Gemini onnistui arvioimaan oikein intubaation lopputuloksen kolmessa kuudesta tapauksesta, kun taas ChatGPT ei päätynyt kertaakaan selkeään lopputulokseen. Tämä johtui pääasiassa ChatGPT:n varovaisuudesta, sillä se jätti usein lopputuloksen määrittelemättä.
Intubaatioputken läpimenon arviointi osoittautui molemmille malleille haastavaksi. ChatGPT antoi oikean arvion vain yhdessä tapauksessa, kun taas Gemini onnistui hieman paremmin saaden puolet tapauksista oikein.
Mallien vastaustyylit erosivat toisistaan. ChatGPT tuotti varovaisia ja epävarmoja vastauksia, mikä johti oikeiden lopputulosten aliarviointiin. Gemini puolestaan antoi useammin suoria vastauksia, mutta perustelut eivät aina olleet oikein. Molemmat mallit suoriutuivat hyvin esimerkiksi näkyvyyden arvioinnissa, mutta vaikeammin tulkittavat videot aiheuttivat haasteita ja tuottivat suurimmat erot vastauksiin.
Mallien välillä havaittiin eroja myös vastausajoissa. Gemini tuotti analyysit nopeasti, kun taas ChatGPT:n analysointi kesti useita minuutteja.
Kehotteen merkitys korostui
Mallien tuottamista analyyseista havaittiin, että mallien saamat ohjeet eli kehotteet vaikuttivat merkittävästi analyysien laatuun ja mallien toimintaan. Pienetkin muutokset kehotteessa vaikuttivat mallien kykyyn tulkita videoita, esimerkiksi intubaatioyrityksen määrittelyä.
Tämä viittaa siihen, että mallien suorituskyky ei riipu pelkästään mallista, vaan myös siitä, miten tehtävä esitetään. Mallikohtaisesti optimoiduilla kehotteilla tuloksia voitaisiin parantaa ja mallit tuottaisivat tarkempia analyyseja.
Tekoälyn rooli opetuksessa
Tulosten perusteella tekoälymallit pystyvät tunnistamaan intubointivideoista keskeisiä piirteitä, mutta niiden suorituskyky ei vielä ole riittävä ilman tarkempaa ohjausta. Tulevaisuudessa opiskelijoiden intubaatiotaitojen arviointi tekoälyn avulla voi kehittyä joko yleiskäyttöisten multimodaalisten avoimien mallien kehittymisen tai intubointiin erikseen kehitettävien paikallisten mallien myötä kohti puolistrukturoituja arviointijärjestelmiä, jotka tukevat opettajan asiantuntija-arviota analysoimalla toimenpidevideoita yhdenmukaisin kriteerein. Opiskelijoille tekoälypohjainen ratkaisu voisi puolestaan tarjota toistettavaa, perusteltua palautetta suorituksesta, mikä tukisi reflektiota ja intubointitaitojen kehittymistä.
Mallien havainnointi ja perustelukyky ovat jo hyvin lähellä ammattilaisen arvioinnintasoa. Ne eivät kuitenkaan voi toimia arvioinnissa yksinään, vaan pystyvät toimimaan kokonaiskuvan muodostamisen tukena jättäen lopullisen arvioinnin asiantuntijalle.
Lähteet:
Kalliovaara, S. 2026, Multimodaalisten kielimallien hyödyntäminen intubointivideoiden arvioinnissa – Theseus, Turun ammattikorkeakoulun opinnäytetyö.
Kuva: Pixabay