pylväskaavio

Avoimen datan visualisointi

13.12.2022

Datan visualisointi on loistava tapa yksinkertaistaa monimutkaista tai vaikeasti hahmotettavaa dataa helposti ymmärrettävään visuaaliseen muotoon.

Avoin data ja sen myötä myös datan visualisointi on viime vuosina kasvanut räjähdysmäisesti. Suuren laskentataulukon informaation sisäistäminen on hyvin hankalaa. Visualisoinnin tarkoituksena on yksinkertaistaa monimutkaista tai vaikeasti hahmotettavaa dataa helposti ymmärrettävään visuaaliseen muotoon.

Päihde- ja mielenterveyspalveluiden visualisointi

Opinnäytetyössä visualisoitiin Suomen kuuden suurimman kaupungin päihde- ja mielenterveyspalveluiden kustannuksia ja sitä, onko kaupunkien välillä eroja siinä, mistä kunkin kaupungin kustannukset koostuvat. Kuusi suurinta kaupunkia ovat:

  • Helsinki
  • Espoo
  • Tampere
  • Vantaa
  • Oulu
  • Turku

Kuviossa 1 nähdään kuuden suurimman kaupungin vuoden 2021 päihde- ja mielenterveyspalveluiden kustannusten visualisointi pylväskaaviona. Kaaviosta selviää, että jokainen kaupunki käyttää eniten rahaa mielenterveyspalveluihin, toiseksi eniten päihdehuollon palveluihin ja vähiten integroituihin palveluihin.

Kuvio 1. Suomen kuuden suurimman kaupungin päihde- ja mielenterveyspalveluiden kustannukset.

Kaaviosta nähdään, että Helsingin osuus on kaikissa palveluissa selvästi suurin. Toiseksi suurimpina kustannuksiltaan ovat Turku ja Tampere. Turun ja Tampereen kustannukset ovat joka luokassa lähes yhtä suuret. Kolmantena on Espoo ja vähiten kustannuksia on Vantaalla ja Oululla. Kaaviosta huomataan myös, että Turku on jaetulla toisella sijalla kustannuksissa Tampereen kanssa, vaikka Turun asukasluku on kyseisistä kuudesta kaupungista pienin.

Terveyden hyvinvointilaitoksen avoimen datan visualisointi

THL:n avoimen datan latauspalvelusta ladattiin myös kaksi eri datasettiä, joista kummastakin tehtiin visualisointeja ja vertailtiin niistä selviäviä tuloksia. THL:n datasetit sisältävät dataa koko Suomen steriloidusta väestöstä ja vastasyntyneistä lapsista. Steriloidun väestön datasetti sisältää naisten ja miesten steriloidut määrät Suomessa vuodesta 1987 alkaen vuoteen 2021 asti. Vastasyntyneiden datasetti sisältää vastasyntyneiden lasten määrät Suomessa vuodesta 2007 alkaen vuoteen 2020 asti.

Kummastakin datasetistä tehtiin seuraavat neljä visualisointia:

  • Viivakaavio
  • Pylväskaavio
  • Pinottu pylväskaavio
  • Rengaskaavio/ympyräkaavio

Molemmille dataseteille saatiin luotua selkeästi paras dataa visualisoiva kaavio. Steriloitua väestöä parhaiten visualisoi viivakaavio ja vastasyntyneitä pylväskaavio. Kummallekin datasetille löytyi myös dataa huonoimmin tai epäselvimmin kuvaava kaavio. Steriloidulla väestöllä pylväskaavio ja vastasyntyneillä ympyräkaavio.

Molempien datasettien pylväskaavioita tarkasteltaessa huomataan, kuinka paljon selkeämpi vastasyntyneiden lasten kaavio on. Visualisoinnit löytyvät allekkain kuvasta 1.

Kuva 1. Pylväskaaviot koko Suomen steriloidusta väestöstä ja vastasyntyneistä lapsista.

Avointa dataa hyödynnetään usein epäsuorasti päätöksen teon tukena yrityksissä ja julkisyhteisöissä. Raakadata on tarkoitettu koneluettavaksi. Valitsemalla datan sisältöä hyvin kuvaavat visualisointimenetelmät voidaan datasta saada todellista informaatiota ihmisen helpommin ymmärtämässä muodossa hyödynnettäväksi esimerkiksi päätöksenteossa, tuotekehityksessä tai tiedottamisessa.

Lähteet:

Leinonen A. 2022 https://urn.fi/URN:NBN:fi:amk-2022121228140, Turun ammattikorkeakoulun opinnäytetyö