Miten MaxDiff-analyysi toimii (yksinkertaista, mutta ei tyhmille)

Tässä postauksessa selitetään perusmekaniikka siitä, miten mieltymyksiä voidaan mitata MaxDiff-kokeessa kerättyjen tietojen avulla. Ennen kuin luet tämän postauksen, lue ensin A beginner’s guide to MaxDiff. Olen tehnyt kovasti töitä tehdäkseni tästä postauksesta mahdollisimman yksinkertaisen, mutta se ei ole mikään tyhmän opas. MaxDiff ei ole tyhmille. Tässä postauksessa aion aloittaa tarkastelemalla yksinkertaisimpia tapoja analysoida MaxDiffiä, ja edetä sitten kohti jotain tiukempaa.

Parhaiden pisteiden laskeminen (superyksinkertainen, superriski)
Tarkastelemme parhaita ja huonoimpia tuloksia vastaajakohtaisesti
Tarkempi analyysi
Taikuus – latenttien luokkien analyysi
Latenttien luokkien profilointi
Vastaajatason mieltymysosuudet
Preferenssisimulointi
Yhteenveto

Parhaiden pisteiden laskeminen (superyksinkertainen, superriski)

Yksinkertaisin tapa analysoida MaxDiff-dataa on laskea yhteen, kuinka moni valitsi kunkin vaihtoehdon parhaaksi. Alla olevassa taulukossa on esitetty pisteet. Apple on paras. Google on toiseksi paras.

Tässä ei oteta huomioon tietoja siitä, mikä vaihtoehto on huonoin. Meidän pitäisi ainakin tarkastella sitä. Se osoittaa meille jotain mielenkiintoista. Vaikka Apple on selvästi suosituin, sillä on myös melkoinen määrä vastustajia. Joten pelkkä keskittyminen sen parhaisiin pisteisiin ei kerro todellista tarinaa.

Seuraava taulukko näyttää erot. Se osoittaa nyt, että Apple ja Google ovat lähes tasoissa suosiossa. Mutta tiedämme jo pelkästään parhaita pistemääriä tarkastelemalla, että tämä ei pidä paikkaansa!

Mitä tässä on tekeillä? Ensinnäkin Apple on suosituin brändi. Tämä viimeinen taulukko on vain harhaanjohtava. Toiseksi, ja vähemmän ilmeisesti, syy siihen, että viimeinen taulukko kertoo meille eri tarinan, on se, että Apple on jakava brändi. Sillä on paljon kannattajia ja melkoinen määrä vastustajia. Tämä tarkoittaa, että meidän on keskityttävä mieltymysten mittaamiseen vastaajatasolla ja samankaltaisten vastaajien ryhmittelyyn (eli segmentointiin). Kuten pian näemme, tässä yksinkertaistetussa analyysissä piilee kolmaskin ongelma, ja löydämme sen vain lisäämällä tilastojemme lämpöä.

Tarkastelemme parhaita ja huonoimpia tuloksia vastaajakohtaisesti

Alla olevasta taulukosta käy ilmi MaxDiff-koeasetelma, jota käytettiin aineiston keräämisessä. Aineiston ensimmäisen vastaajan valinnat on merkitty värillä. Sininen osoittaa, mikä vaihtoehto valittiin parhaaksi. Punainen huonointa. Kysymys, johon yritämme vastata, on, mikä on vastaajan paremmuusjärjestys kymmenen teknologiamerkin välillä?

Yksinkertaisin ratkaisu on laskea yhteen kunkin vaihtoehdon valintakertojen määrä ja antaa pistemäärä 1 jokaisesta parhaaksi valinnasta ja -1 jokaisesta huonoimmaksi valitusta vaihtoehdosta. Tämä johtaa tuotemerkkien seuraaviin pisteytyksiin ja paremmuusjärjestykseen:

Microsoft 3 > Google 1 = Samung 1 = Dell 1 > Apple = Intel = Sony > Yahoo -1 > Nokia -2 > IBM -3

Tämä lähestymistapa on hyvin yksinkertainen ja kaukana tieteellisestä. Katsokaa vaikka Yahoota. Kyllä, se valittiin kerran huonoimmaksi, ja laskenta-analyysimme mukaan se on kolmanneksi huonoin brändi, joka on vähemmän houkutteleva vastaajalle kuin Apple, Intel ja Sony. Katsokaa kuitenkin tarkemmin kysymystä 5. Yahoota on verrattu Microsoftiin, Googleen, Samsungiin ja Delliin. Nämä ovat tuotemerkkejä, jotka vastaaja valitsi kokeilussa mieluisimmiksi, ja näin ollen tiedot viittaavat siihen, että ne kaikki ovat parempia kuin Apple, Intel ja Sony. Toisin sanoen ei ole todisteita siitä, että Yahoo olisi itse asiassa huonompi kuin Apple, Intel ja Sony. Laskennallinen analyysi on yksinkertainen mutta väärä.

Tarkempi analyysi

Tehdään analyysistä tarkempi ottamalla huomioon, mitä vaihtoehtoa verrattiin mihinkin muuhun. Tällä on merkitystä, koska kaikkia vaihtoehtojen yhdistelmiä ei voida testata, koska se johtaisi valtavaan väsymiseen. Olemme jo päätelleet, että Yahoo ei eroa Applelta, Inteliltä ja Sonylta, mikä johtaa seuraaviin tuloksiin:

Microsoft > Google = Samsung = Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Mikä tuotemerkki on toiseksi suosituin? Kukin Samsung, Google ja Dell on valittu kerran parhaaksi. Tarkoittaako tämä, että ne ovat kaikki yhtä lailla kakkosena? Ei, se ei tarkoita. Kysymyksessä 4 Dell oli Googlea vastaan, ja Googlea pidettiin parempana. Näin ollen tiedämme, että:

Microsoft > Google > Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Mutta huomaa, että olen poistanut Samsungin. Samsung on ongelma. Se voi olla Microsoftin ja Googlen välillä. Se voi olla Googlen ja Dellin välillä. Tai se voi olla vähemmän kuin Dell. Sitä ei voi mitenkään sanoa! Voimme arvata, että sillä on sama vetovoima kuin Dellillä. Olen piirtänyt Samsungin sinisellä, sillä vaikka arvaus ei ole typerä, se on kuitenkin ei-superkoulutettu arvaus:

Microsoft > Google > Samsung = Dell > Apple, Intel, Sony, Yahoo > Nokia > IBM

Vaikeamman ongelman asettavat vastaajan 13 tiedot. Hän valitsi Applen kahdesti parhaaksi, Samsungin kahdesti ja Googlen ja IBM:n kumpikin kerran. Mikä on hänen suosikkinsa? Tässä se menee todella rumaksi. Aineisto osoittaa, että:

Apple > Google yhdellä sijalla (kysymys 1)
Apple > IBM (kysymys 1)
IBM > Google (kysymys 4)
Google > Samsung (kysymys 5)
Samsung > Apple (kysymys 6)
Samsung > IBM (kysymys 6)

Tämä tieto on ristiriitaista. Katso kolmea ensimmäistä kohtaa. Ne kertovat, että Apple > IBM = Google. Mutta kolme viimeistä kertovat meille, että Google > Samsung > Apple = IBM.

Useimpien ihmisten vaisto tämänkaltaisen datan edessä on sanoa, että data on huono ja heittää se pois. Valitettavasti asia ei ole näin yksinkertainen. Osoittautuu, että useimmat meistä antavat tutkimuksissa epäjohdonmukaisia tietoja. Olemme hajamielisiä ja kyllästyneitä, ja olemme vähemmän huolellisia kuin pitäisi. Muutamme mieltämme ajatellessamme. Mielenkiintoista MaxDiffissä ei ole se, että se johtaa epäjohdonmukaisiin tietoihin. Pikemminkin se, että sen avulla voimme nähdä, että tiedot ovat ristiriitaisia. Tämä on itse asiassa hyvä asia, sillä jos olisimme sen sijaan esimerkiksi pyytäneet vastaajaa asettamaan tiedot paremmuusjärjestykseen, ne olisivat edelleen sisältäneet virheitä, mutta emme olisi koskaan nähneet niitä, koska meillä ei olisi ollut mahdollisuutta nähdä epäjohdonmukaisuuksia.

Yhteenvetona:

Pisteiden laskeminen kullekin vastaajalle laskemalla yhteen parhaat pisteet ja vähentämällä huonoimmat pisteet ei ole pätevää.
Meillä ei ole tarpeeksi tietoa, jotta saisimme vaihtoehdoista täydellisen järjestyksen.
Vastaajat antavat epäjohdonmukaisia tietoja.

Onneksi hieman tilastollista taikuutta voi auttaa meitä näissä ongelmissa.

Taikuus – latenttien luokkien analyysi

Ongelma, jonka mukaan vastaajat antavat epäjohdonmukaisia tietoja, ei ole uusi. Se on ollut aktiivinen akateemisen tutkimuksen ala 1930-luvulta lähtien. Tutkimusalue, joka käsittelee tätä, tunnetaan nimellä satunnaishyödyllisyysmallit, ja jos luet tätä viestiä, saatat jo tuntea tämän luokan malleja (esim. multinomiaalinen logit, latenttilogit, satunnaisparametrilogit, ovat kaikki malleja, jotka ratkaisevat tämän ongelman).

Ongelman toinen osa, eli se, että meillä on epätäydellistä dataa, ratkaistaan lainaamalla dataa muilta vastaajilta. Itselleni yllättävää kyllä, vaikka dataa olisi riittävästi kunkin vastaajan preferenssien laskemiseen erikseen, on yleensä silti parempi arvioida preferenssit yhdistämällä heidän datansa samankaltaisten vastaajien dataan. Luulen, että tämä johtuu siitä, että kun analysoimme kunkin vastaajan tietoja erikseen, sovitamme ne liikaa, emmekä huomaa, että se, mikä näytti preferensseiltä, oli todellisuudessa kohinaa.

Nämä kaksi ongelmaa ratkaistaan yhdessä latenttiluokka-analyysin avulla. Erityinen muunnos, jota havainnollistan jäljempänä, on latenttiluokan rank-ordered logit, jossa on sidonnaisuuksia. Se on eksoottinen malli, joka on kehitetty erityisesti latenttiluokka-analyysiä varten. On olemassa muitakin latenttiluokkamalleja, joita voidaan käyttää. En aio selittää matematiikkaa. Sen sijaan selitän vain, miten tulosteet luetaan.

Latenttiluokka-analyysi on kuin klusterianalyysi. Syötät koko joukon dataa ja kerrot sille, kuinka monta luokkaa (eli klusteria) haluat. Alla olevassa taulukossa on tulokset viidelle luokalle (eli segmentille). Kunkin luokan tulokset näkyvät sarakkeissa. Luokan koko näkyy yläreunassa. Alapuolella on Todennäköisyys-%, joka tunnetaan myös nimellä preferenssiosuus (eli arvioitu todennäköisyys, että segmenttiin kuuluva henkilö suosii jotakin vaihtoehtoa kaikista tutkimuksessa olevista vaihtoehdoista).

Luokka 1 koostuu henkilöistä, joiden preferenssijärjestys on keskimäärin Samsung > Google > Microsoft > Sony > … … . Se on 21,4 prosenttia otoksesta. Luokka 2 koostuu ihmisistä, joilla on vahva mieltymys Appleen. Luokka 3 koostuu ihmisistä, jotka pitävät sekä Applesta että Samsungista. Luokkaan 4 kuuluvat ihmiset, jotka suosivat Sonya ja Nokiaa, mutta heillä ei ole erittäin vahvoja mieltymyksiä mitään tuotemerkkiä kohtaan. Luokka 5 suosii myös Applea ja sitten Microsoftia.

Jos katsot Yhteensä-saraketta, näet jotain, mikä saattaa yllättää sinut. Googlen osuus on vain 12,8 %. Se on vähemmän kuin Samsungilla. Tämä on ristiriidassa aiempien laskenta-analyysien johtopäätösten kanssa, jotka osoittivat Googlen olevan toiseksi suosituin brändi sen perusteella, kuinka monta kertaa se valittiin parhaaksi, ja olevan niskan päällä Applen kanssa, kun huonoimmat pisteet otettiin huomioon. Miten latenttien luokkien analyysi antaa meille näin erilaisen johtopäätöksen? Syynä on se, että aiempi laskenta-analyysi on perustavanlaatuisesti virheellinen.

Katsomalla uudelleen latenttien luokkien tuloksia voimme nähdä, että Googlen osuus on kohtalainen kaikissa segmenteissä. Tässä kokeessa jokainen henkilö täytti kuusi kysymystä. Alla on esitetty, kuinka monta kertaa he valitsivat kunkin tuotemerkin parhaaksi näissä kysymyksissä. Koeasetelma luotiin siten, että kukin vaihtoehto näytettiin vain kolme kertaa. Jos tarkastelet alla olevan taulukon 3 kertaa -saraketta, se osoittaa, että 36 prosenttia ihmisistä valitsi Applen parhaaksi kolme kertaa, 20 prosenttia Samsungin kolme kertaa ja 12 prosenttia Googlen parhaaksi kolme kertaa. Voimme siis päätellä, että Apple on noin kolme kertaa todennäköisimmin suosituin verrattuna Googleen. Katso nyt sarakkeita Kerran ja Kahdesti. Google on todennäköisin brändi, joka valitaan kerran. Se on myös todennäköisin brändi, joka valitaan kahdesti. Google on siis suosituin varabrändi. Tämä korostaa, miksi karkeat laskenta-analyysit voivat olla niin harhaanjohtavia. Ihmisiä pyydetään tekemään kuusi valintaa, mutta koeasetelma näyttää heille heidän mieluisimman tuotemerkkinsä vain kolme kertaa, ja laskenta-analyysi paisuttaa siten liikaa toiseksi ja kolmanneksi mieluisimpien tuotemerkkien suorituskykyä.

Yllä olevassa viisiluokkaisessa ratkaisussa vain Apple hallitsee selvästi mitään segmenttiä. Tämä ei ole oivallus. Pikemminkin se on seurausta valittujen luokkien määrästä. Jos valitsemme useampia luokkia, saamme enemmän segmenttejä, jotka sisältävät jyrkempiä eroja mieltymyksissä. Alla olevassa taulukossa on 10 luokkaa. Voisimme helposti lisätä niitä lisää. Kuinka monta lisää? On muutama asia, joista on tehtävä kompromissi:

Kuinka hyvin mallimme sopii aineistoon. Yksi tämän mittari on BIC, joka näkyy latenttiluokkataulukoiden alareunassa. Jos kaikki muut tekijät ovat samat, mitä pienempi BIC on, sitä parempi malli on. Tällä kriteerillä 10-luokan malli on parempi. Kaikki muu on kuitenkin harvoin yhtä, joten pidä BIC:tä vain karkeana ohjeena, josta on vain joskus hyötyä.
Kokonaispylvään vakaus. Jos vertaat 10- ja 5-luokan ratkaisua, huomaat, että ne korreloivat voimakkaasti keskenään. Kuitenkin juuri 10 luokan ratkaisu on tarkin estimaatti (teknisemmille lukijoille: koska malli on epälineaarinen, kokonaissarake, joka on muiden sarakkeiden painotettu summa, ei ole pätevä, kun luokkien määrä on määritelty väärin).
Saavatko sidosryhmää kiinnostavat tuotemerkit korkeat mieltymyspisteet jossakin segmentissä. Esimerkiksi alla olevassa taulukossa on paljon kiinnostusta Applea, Samsungia, Sonya ja Googlea kohtaan, mutta jos tekisit tutkimuksen jollekin toiselle tuotemerkille, haluaisit luultavasti lisätä luokkien lukumäärää löytääksesi segmentin, joka vastaisi asiakkaalle. Edellyttäen, että BIC laskee jatkuvasti, tässä ei ole mitään arveluttavaa.
Ratkaisun monimutkaisuus sidosryhmien kannalta. Mitä vähemmän luokkia, sitä ymmärrettävämpi.

Alla olevassa donitsikaaviossa näkyvät 10 luokan ratkaisun preferenssiosuudet (ts, sen Total-sarakkeessa).

Latenttien luokkien profilointi

Kun olemme luoneet latentit luokkamme, jaamme jokaisen henkilön luokkaan ja profiloimme luokat luomalla taulukoita. Alla olevassa taulukossa näkyy esimerkiksi 5-luokkainen ratkaisumme tuoteomistuksen mukaan. Jos verrataan tätä taulukkoa itse latenttiluokkaratkaisuun, nähdään, että tuoteomistus on linjassa MaxDiff-kysymyksissä esitettyjen mieltymysten kanssa.

Vastaajatason mieltymysosuudet

Joskus on mukavaa saada mieltymysosuudet jokaiselle kyselyyn vastanneelle. Tyypillisesti niitä käytetään syötteenä myöhemmissä analyyseissä (esim. segmentointitutkimuksissa, joissa käytetään useita tietolähteitä). Kun olet estimoinut latentin luokan mallin, ne on helppo laskea (ne ovat vakiotuloste). Ne eivät kuitenkaan ole erittäin tarkkoja. Kuten edellä todettiin, ei ole riittävästi tietoa henkilön todellisen mieltymysjärjestyksen laskemiseksi, joten väistämättä kaikki mieltymysosuuksien laskelmat perustuvat pitkälti muilta vastaajilta saatuihin tietoihin, joihin puolestaan vaikuttaa se, miten hyvin latenttiluokkamalli selittää tietoja. Alla olevassa taulukossa esitetään vastaajatason preferenssiosuudet 5-luokkamallista.

Alla olevassa taulukossa esitetään kullekin vastaajalle laskettujen todennäköisyysprosenttien keskiarvo. Ne ovat hyvin samankaltaisia kuin latenttiluokkamallin kokonaissarakkeen tulokset, mutta eivät aivan samoja (jälleen, jos olet superteknikko: tämä johtuu laskelmien epälineaarisuudesta; suuri ero näiden välillä olisi vihje siitä, että malli on huono). Total-sarake on tarkempi kuin tässä taulukossa esitetty Mean Probability % -sarake.

Olen piirtänyt alla olevien merkkien mieltymysjakaumien histogrammit. Nämä jakaumat perustuvat 5-luokkaiseen malliimme. Näin ollen ne eivät pysty osoittamaan mieltymyksissä enempää vaihtelua kuin aiemmassa analyysissä ilmeni. Jos käyttäisimme useampia luokkia, saisimme enemmän vaihtelua. On kuitenkin olemassa parempia tapoja saavuttaa tämä tulos.

Alla olevassa taulukossa esitetään preferenssiosuuksien jakaumat vielä monimutkaisemmasta mallista, joka tunnetaan nimellä boosted varying coefficients model. (Tätä ei löydy akateemisesta kirjallisuudesta; me keksimme sen, mutta koodi on avointa lähdekoodia, jos haluat kaivaa sen esiin). Tämä osoittaa paremmat jakaumat kullekin tuotemerkille (laajempi = parempi). Teknisempi blogikirjoitus, jossa käsitellään näitä monimutkaisempia malleja, löytyy täältä.

Alla olevassa taulukossa on esitetty kunkin vastaajan etuoikeutetut osuudet tästä mallista. Katsokaa vastaajia 1 ja 13, joita tarkastelimme postauksen alussa. Ensimmäisen vastaajan selkeä mieltymys Microsoftia ja Googlea kohtaan ja vastenmielisyys IBM:ää, Nokiaa ja Yahoota kohtaan näkyy läpi, vaikka osa järjestyksestä onkin hieman muuttunut. Vastaajan 13 ristiriitaiset valinnat on ratkaistu Applen hyväksi, jonka hän valitsi kahdesti suosituimmaksi.

Näistä vastaajatason osuuksista saadaan keskiarvotodennäköisyysprosentti alla olevassa taulukossa esitetyllä tavalla, joka taas vastaa latenttiluokka-analyysin tulosta melko tarkasti.

Preferenssisimulointi

Joskus MaxDiffin markkinointisovelluksissa ihmiset valitsevat vaihtoehtoisten tuotteiden välillä. Tällaisia tutkimuksia tehtäessä voi olla mielenkiintoista ymmärtää preferenssiosuuksia sen jälkeen, kun osa vaihtoehdoista on poistettu. Tämä on superyksinkertaista. Meidän on vain poistettava niiden vaihtoehtojen sarakkeet, jotka haluamme sulkea pois, ja sen jälkeen laskettava luvut uudelleen niin, että niiden yhteenlaskettu arvo on 100 %. Alla olen laskenut etuosakkeet uudelleen, kun Samsung ja Apple on poistettu.

Yhteenveto

Simppelit analyysimenetelmät eivät kelpaa MaxDiffille. Ne johtavat törkeän harhaanjohtaviin johtopäätöksiin. Kehittyneempien tekniikoiden, kuten latenttiluokka-analyysin, soveltaminen antaa sen sijaan huomattavasti mielekkäämpiä tuloksia.

Klikkaamalla tästä pääset kirjautumaan Displayriin ja näkemään kaikki tässä viestissä käytetyt analyysit. Klikkaa tästä postaukseen, jossa kerrotaan, miten voit tehdä tämän itse Displayrissa, ja tästä postaukseen, jossa kerrotaan, miten se tehdään Q:ssa.