Koneoppiminen – Onko asiakkaan ostotodennäköisyyksien ennustaminen mahdollista?

13.06.2024

Erittäin kilpaillulla verkkokauppamarkkinoilla asiakaskäyttäytymisen ymmärtäminen ja onnistunut kohdennettu mainonta ovat keskeisessä asemassa markkinaosuuden kasvattamisessa. Kyky ennustaa asiakkaan ostoaikomusta ymmärtämällä asiakkaan ostokäyttäytymistä ja ostotottumuksia mahdollistaa ajankohtaisten ja tarpeellisten tuotteiden mainostamisen asiakkaalle. Yksi lähestymistapa asiakkaan ostotodennäköisyyksien ennustamiseen on koneoppimisen mallilla.

Miten ostotodennäköisyyttä voidaan ennustaa?

Lukuisat tekijät vaikuttavat asiakkaan ostotodennäköisyyteen. Maailman tapahtumat ja taloudellinen tilanne vaikuttavat ostokäyttäytymiseen yleisellä tasolla. Henkilökohtaisempia tekijöitä ovat muun muassa:

  • Hinta
  • Asumismuoto
  • Muutokset elämässä, kuten muutto tai perheenlisäys
  • Vuodenaika
  • Kuinka kauan aikaa on kulunut viimeisestä ostoksesta
  • Positiiviset arvostelut tuotteella

On hyvä muistaa, että jokaisella asiakkaalla on omat ostotarpeet ja lukuisat muut asiat vaikuttavat myös ostotodennäköisyyksiin. Ominaisuuksia, joita pystytään mittaamaan, käytetään koneoppimismallin data-aineistossa.

Data-aineistossa käytetään kolmea eri raakalähdettä:

  • Selausdata
  • Myyntidata
  • Asiakasdata

Selausdataa käytetään data-aineiston pohjana. Selausdataan tallentuu sivut, joilla asiakas on vieraillut. Tätä dataa pystyy jatkomallintamaan, niin että kattava peruskuva selailusta saadaan tallennettua. Selausdatasta pystytään analysoimaan asiakkaan käyttäytymistä sivuilla ennen mahdollista ostoa.

Myyntidataa käytetään asiakkaan ostohistorian ja ostokäyttäytymisen kartoittamiseen. Myyntidatasta selviää asiakkaan aikaisempien ostojen määrä, tiheys ja takuutiedot. Uusia tietoja kerätään yhdistämällä asiakkaan selaus- ja ostohistoria. Näin pystytään laskemaan selausten ja ostojen välinen konversio sekä kuinka kauan tuotteita selataan ennen ostoja.

Asiakasdatasta kerätään asiakkaan sukupuoli ja asiakassegmentointi. Asiakkailla on uniikki asiakas-ID, jota käytetään selaus- ja myyntidatan yhdistämiseen. Asiakas-ID poistetaan data-aineistoista, jolla varmistetaan asiakasdatan anonymisointi.

Data-aineiston esikäsittely

Kun data-aineisto on valmis, se esikäsitellään käyttämällä MinMax, Robust ja One-Hot Encoder -skaalausalgoritmeja. MinMax-skaalausalgoritmia käytetään niille ominaisuuksille, joissa ei ole poikkeavuuksia datassa, kun taas Robust-algoritmia ominaisuuksille, joissa on poikkeavuuksia. One-Hot Encoder käsittelee kategoriset arvot. Data-aineiston imputointi tapahtuu korvaamalla tyhjät kategoriset arvot ’Unknown’-arvolla. Ominaisuuksissa, joissa lasketaan summa, tyhjät arvot korvataan nollalla.

Vähentämällä ominaisuuksia vähennetään koneoppimismallin koulutusaikaa ja parannetaan tuloksia. Tärkeimmät ominaisuudet valitaan kouluttamalla Satunnaismetsä-malli, joka suodattaa pois ne ominaisuudet, jotka eivät edesauta mallin kouluttamista. Data-aineiston vähentämisen jälkeen data-aineisto koostuu 20 ominaisuudesta.

Koneoppimismallien kouluttaminen

Koska data-aineistossa on 56 992 tapausta, joissa asiakas ei tee ostoa, ja 1 602 tapausta, joissa asiakas tekee oston, data-aineisto on epätasapainossa. Mallien kouluttamisessa käytetään neljää erilaista lähestymistapaa huomioida epätasapaino:

  • Ei muutoksia data-aineistoon.
  • Enemmistötapaukset vähennetään täsmäämään vähemmistötapausten määrää.
  • SMOTE-teknologialla suurennetaan vähemmistötapausten määrää täsmäämään enemmistötapausten määrä.
  • Kouluttamisessa annetaan enemmän painoarvoa vähemmistötapausten oikein ennustamiselle.

Koulutuksessa käytettiin kolmea eri koneoppimisen algoritmia:

  • Logistinen regressio
  • Tehostettu päätöspuu
  • Satunnaismetsät

Jokainen algoritmi käsitteli saman data-aineiston ja eri lähestymistavat epätasapainon huomioimiseen.

Tulokset

Algoritmeista satunnaismetsä suoriutui parhaiten jokaisella lähestymistavalla. Parhaat tulokset saavutettiin koulutuksessa, jossa painoarvoa annettiin vähemmistötapausten oikein ennustamiselle. Malli pystyy ennustamaan lupaavin tuloksin asiakkaan ostotodennäköisyyttä. Koneoppimisen mallia pystyy käyttämään kohdennetun mainonnan parantamiseen ja täten mahdollisesti kasvattamaan markkinaosuutta.

Lähteet

Vuorio E. 2024. Predicting customer purchase intent with machine learning – Theseus. Turun ammattikorkeakoulun opinnäytetyö.