Sådan fungerer MaxDiff-analysen (forenklet, men ikke for dummies)

Dette indlæg forklarer de grundlæggende mekanismer for, hvordan præferencer kan måles ved hjælp af de data, der indsamles i et MaxDiff-eksperiment. Før du læser dette indlæg, skal du sørge for først at læse A beginner’s guide to MaxDiff (En nybegynderguide til MaxDiff). Jeg har arbejdet hårdt for at gøre dette indlæg så enkelt som muligt, men det er ikke en dummeguide. MaxDiff er ikke for dummies. I dette indlæg vil jeg starte med at se på de mest simple måder at analysere MaxDiff på, og arbejde os op til noget mere stringent.

Tælle de bedste scoringer (super-simpelt, super risikabelt)
Se på bedste og værste score efter respondent
En mere stringent analyse
Det magiske – latent klasseanalyse
Profilering af latente klasser
Præferenceandele på respondentniveau
Præferencesimulering
Summarum

Tælle de bedste scoringer (super-simpelt, super risikabelt)

Den simpleste måde at analysere MaxDiff-data på er at tælle op, hvor mange personer der valgte hvert alternativ som det mest foretrukne. Nedenstående tabel viser scoringerne. Apple er bedst. Google er næstbedst.

Dette ignorerer vores data om, hvilket alternativ der er det værste. Det bør vi i det mindste se på. Det viser os noget interessant. Selv om Apple klart er det mest populære, har det sin rimelige andel af kritikere. Så hvis man kun fokuserer på dets bedste score, fortæller det ikke den sande historie.

Den næste tabel viser forskellene. Den viser nu, at Apple og Google næsten ligger lige i forhold til præferencerne. Men vi ved, når vi blot ser på de bedste resultater, at dette ikke er korrekt!

Hvad sker der her? For det første er Apple det mest populære mærke. Denne sidste tabel er bare misvisende. For det andet, og mindre indlysende, er grunden til, at den sidste tabel fortæller os en anden historie, at Apple er et splittet mærke. Det har mange tilhængere og en hel del kritikere. Det betyder, at vi er nødt til at fokusere på at måle præferencerne på respondentniveau og gruppere lignende respondenter (dvs. segmentering). Som vi snart vil se, gemmer der sig et tredje problem i denne forsimplede analyse, og vi finder det kun ved at skrue op for vores statistik.

Se på bedste og værste score efter respondent

Tabellen nedenfor viser det MaxDiff-forsøgsdesign, der blev anvendt ved indsamlingen af data. Valgene for den første respondent i datasættet er vist med farve. Blå viser, hvilket alternativ der blev valgt som det bedste. Rød for det dårligste. Det spørgsmål, som vi forsøger at besvare, er: Hvad er respondentens rangorden af præferencer mellem de 10 teknologiske mærker?

Den enkleste løsning er at tælle op, hvor mange gange hvert alternativ er valgt, og give en score på 1 for hver gang det er valgt som det bedste og -1 for hver gang det er valgt som det værste. Dette fører til følgende point og rangordning af mærkerne:

Microsoft 3 > Google 1 = Samung 1 = Dell 1 > Apple = Intel = Sony > Yahoo -1 > Nokia -2 > IBM -3

Denne fremgangsmåde er meget enkel og langt fra videnskabelig. Se på Yahoo. Ja, det blev valgt som værst én gang, og vores optællingsanalyse viser, at det er det tredje værste mærke, der er mindre tiltalende for respondenten end Apple, Intel og Sony hver især. Men se nærmere på spørgsmål 5. Yahoo er blevet sammenlignet med Microsoft, Google, Samsung og Dell. Det er de mærker, som respondenten har valgt som de mest foretrukne i forsøget, og dataene tyder således på, at de alle er bedre end Apple, Intel og Sony. Det vil sige, at der ikke er noget, der tyder på, at Yahoo faktisk er dårligere end Apple, Intel og Sony. Tælleanalysen er enkel, men forkert.

En mere stringent analyse

Vi gør analysen mere stringent ved at tage hensyn til, hvilket alternativ der blev sammenlignet med hvilke andre. Det gør en forskel, fordi ikke alle kombinationer af alternativer kan testes, da det ville føre til en enorm træthed. Vi har allerede konkluderet, at Yahoo ikke er anderledes end Apple, Intel og Sony, hvilket fører til:

Microsoft > Google = Samsung = Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Hvilket mærke er det næstmest foretrukne? Hver af Samsung, Google og Dell er blevet valgt som bedst én gang. Betyder det, at de alle ligger lige meget på andenpladsen? Nej, det gør det ikke. I spørgsmål 4 var Dell mod Google, og Google blev foretrukket. Vi ved således, at:

Microsoft > Google > Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Men bemærk, at jeg har fjernet Samsung. Samsung er et problem. Det kan stå mellem Microsoft og Google. Det kan være mellem Google og Dell. Eller det kan være mindre end Dell. Det kan vi ikke vide på nogen måde! Vi kan gætte på, at det har den samme tiltrækningskraft som Dell. Jeg har tegnet Samsung med blåt, for selv om gættet ikke er dumt, er det ikke desto mindre et ikke-superuddannet gæt:

Microsoft > Google > Samsung = Dell > Apple, Intel, Sony, Yahoo > Nokia > IBM

Et mere vanskeligt problem er respondent 13’s data. Hun valgte Apple to gange som den bedste, Samsung to gange og Google og IBM én gang hver. Hvilken er hendes favorit? Her bliver det virkelig grimt. Dataene viser, at:

Apple > Google på 1 plads (spørgsmål 1)
Apple > IBM (spørgsmål 1)
IBM > Google (spørgsmål 4)
Google > Samsung (Spørgsmål 5)
Samsung > Apple (Spørgsmål 6)
Samsung > IBM (Spørgsmål 6)

Disse data er modstridende. Se på de tre første punkter. De fortæller os, at Apple > IBM = Google. Men de sidste tre fortæller os, at Google > Samsung > Apple = IBM.

De fleste menneskers instinkt, når de konfronteres med data som disse, er at sige, at dataene er dårlige og at smide dem væk. Desværre er det ikke så enkelt. Det viser sig, at de fleste af os giver inkonsekvente data i undersøgelser. Vi bliver distraheret og keder os og er mindre omhyggelige, end vi burde. Vi ændrer vores mening, mens vi tænker. Det interessante ved MaxDiff er ikke, at det fører til inkonsistente data. Det er snarere, at det gør det muligt for os at se, at dataene er modstridende. Det er faktisk en god ting, for hvis vi i stedet f.eks. havde bedt respondenten om at rangordne dataene, ville de stadig have indeholdt fejl, men vi ville aldrig have set dem, da vi ikke ville have haft mulighed for at se de uoverensstemmelser.

For at opsummere:

Det er ikke gyldigt at beregne scorer for hver respondent ved at lægge de bedste scorer sammen og trække de dårligste scorer fra.
Vi har ikke nok data til at få en fuldstændig rækkefølge af alternativerne.
Respondenterne leverer inkonsekvente data.

Glædeligt nok kan en smule statistisk trolddom hjælpe os med disse problemer.

Det magiske – latent klasseanalyse

Problemet med respondenter, der leverer inkonsekvente data, er ikke nyt. Det har været et aktivt område for akademisk forskning siden 1930’erne. Det forskningsområde, der beskæftiger sig med dette, er kendt som tilfældige nyttemodeller, og hvis du læser dette indlæg, er du måske allerede bekendt med denne klasse af modeller (f.eks. multinomial logit, latent class logit, random parameters logit, er alle modeller, der løser dette problem).

Den anden del af problemet, som er, at vi har ufuldstændige data, løses ved at låne data fra andre respondenter. Det er overraskende for mig, at selv når der er tilstrækkelige data til at beregne præferencer for hver respondent for sig, er det normalt stadig bedre at estimere præferencen ved at kombinere deres data med data fra lignende respondenter. Jeg tror, at det skyldes, at når vi analyserer data for hver enkelt respondent isoleret, så overjusterer vi og undlader at opdage, at det, der lignede præferencer, i virkeligheden var støj.

Disse to problemer løses i fællesskab ved hjælp af latent klasseanalyse. Den særlige variant, som jeg illustrerer nedenfor, er latent class rank-ordered logit med uafgjorthed. Det er en eksotisk model, der er specielt udviklet til latent klasseanalyse. Der findes andre latente klassemodeller, som kan anvendes. Jeg har ikke tænkt mig at forklare matematikken. I stedet vil jeg blot forklare, hvordan man kan aflæse outputs.

Latent class analysis er ligesom cluster analysis. Du lægger en hel masse data ind og fortæller den, hvor mange klasser (dvs. klynger) du ønsker. Tabellen nedenfor viser resultaterne for fem klasser (dvs. segmenter). Resultaterne for hver klasse er vist i kolonnerne. Størrelsen af klassen vises øverst. Nederst er sandsynlighedsprocenten, også kendt som en præferenceandel (dvs. den anslåede sandsynlighed for, at en person i segmentet vil foretrække et alternativ blandt alle alternativerne i undersøgelsen).

Klasse 1 består af personer, der i gennemsnit har præferenceordnen Samsung > Google > Microsoft > Sony > … . Den udgør 21,4 % af stikprøven. Klasse 2 består af personer, der har en stærk præference for Apple. Klasse 3 består af personer, der kan lide både Apple og Samsung. Personer, der foretrækker Sony og Nokia, optræder i klasse 4, men har ingen superstærke præferencer for noget mærke. Klasse 5 foretrækker også Apple og derefter Microsoft.

Hvis du kigger på kolonnen Total, vil du se noget, der måske kan overraske dig. Googles andel er kun 12,8 %. Det er mindre end Samsung. Dette modsiger konklusionerne fra de tidligere optællingsanalyser, som viste Google som det næstmest populære mærke baseret på antallet af gange, hvor det blev valgt som det bedste, og hals og hals med Apple, når de dårligste scoringer blev indregnet. Hvordan kan det være, at den latente klasseanalyse giver os en så anderledes konklusion? Årsagen er, at den tidligere tælleanalyse er fundamentalt mangelfuld.

Kigger vi igen på resultaterne for de latente klasser, kan vi se, at Google har en moderat andel i alle segmenter. I dette eksperiment besvarede hver person seks spørgsmål. Antallet af gange, de valgte hvert af mærkerne som bedst på tværs af disse spørgsmål, er vist nedenfor. Den måde, hvorpå forsøgsdesignet blev skabt, er, at hvert alternativ kun blev vist tre gange. Hvis man ser på kolonnen 3 gange i tabellen nedenfor, viser den, at 36 % af personerne valgte Apple bedst 3 gange, 20 % valgte Samsung 3 gange, og 12 % valgte Google bedst 3 gange. Vi kan altså konkludere, at Apple er ca. 3 gange så sandsynligt, at Apple er mest foretrukket sammenlignet med Google. Se nu på kolonnerne En gang og To gange. Google er det mest sandsynlige mærke til at blive valgt én gang. Og det er også det mest sandsynlige mærke til at blive valgt to gange. Google er altså det mest populære fallback-brand. Dette understreger, hvorfor de grove tællende analyser kan være så misvisende. Folk bliver bedt om at træffe 6 valg, men forsøgsdesignet viser dem kun deres mest foretrukne mærke 3 gange, og tælleanalysen overopblæser således præstationerne for de næst- og tredjepræfererede mærker.

I løsningen med fem klasser ovenfor er det kun Apple, der klart dominerer noget segment. Dette er ikke en indsigt. Det er snarere en konsekvens af det antal klasser, der blev valgt. Hvis vi vælger flere klasser, vil vi få flere segmenter, der indeholder skarpere forskelle i præferencer. Tabellen nedenfor viser 10 klasser. Vi kunne nemt tilføje flere. Hvor mange flere? Der er et par ting, der skal afvejes:

Hvor godt vores model passer til dataene. Et mål for dette er BIC, som er vist nederst i tabellerne over latente klasser. Alt andet lige er det sådan, at jo lavere BIC, jo bedre er modellen. På dette kriterium er 10-klassemodellen overlegen. Alt andet er dog sjældent lige, så behandl BIC som blot en grov vejledning, der kun nogle gange er nyttig.
Stabiliteten af den samlede kolonne. Hvis man sammenligner 10- og 5-klasseløsningen, kan man se, at de er stærkt korrelerede. Det er imidlertid 10-klasseløsningen, der er det mest nøjagtige skøn (til de mere tekniske læsere: Da modellen er ikke-lineær, er den samlede kolonne, som er en vægtet sum af de andre kolonner, ugyldig, når antallet af klasser er fejlspecificeret).
Hvis de mærker, der er interessante for interessenten, får en høj præferencescore i nogen af segmenterne. I tabellen nedenfor er der f.eks. stor interesse for Apple, Samsung, Sony og Google, men hvis du lavede undersøgelsen for et andet af mærkerne, ville du sandsynligvis ønske at øge antallet af klasser for at finde et segment, der vil vække genklang hos kunden. Forudsat at BIC bliver ved med at falde, er der ikke noget tvivlsomt ved dette.
Løsningens kompleksitet for interessenterne. Jo færre klasser, jo mere forståeligt.

Det nedenstående donutdiagram viser præferenceandelene for 10-klasseløsningen (dvs, dens kolonne Total).

Profilering af latente klasser

Når vi har oprettet vores latente klasser, tildeler vi hver person til en klasse og profilerer derefter klasserne ved at oprette tabeller. Tabellen nedenfor viser f.eks. vores løsning med 5 klasser efter produktejerskab. Hvis du sammenligner denne tabel med selve den latente klasseløsning, vil du se, at produktejerskabet stemmer overens med de præferencer, der er vist i MaxDiff-spørgsmålene.

Præferenceandele på respondentniveau

Sommetider er det rart at have præferenceandele for hver respondent i undersøgelsen. Typisk bruges de som input til yderligere analyser (f.eks. segmenteringsundersøgelser, der anvender flere datakilder). Når du har estimeret en latentklassemodel, er de nemme at beregne (de er et standardoutput). De er dog ikke superpræcise. Som vi diskuterede ovenfor, er der ikke tilstrækkelige oplysninger til at beregne en persons faktiske præferenceordning, så uundgåeligt er enhver beregning af deres præferenceandele i høj grad afhængig af de data, der deles fra andre respondenter, hvilket igen er påvirket af, hvor god den latente klassemodel er til at forklare dataene. Tabellen nedenfor viser præferenceandelene på respondentniveau fra 5-klassemodellen.

Tabellen nedenfor viser gennemsnittet af de sandsynlighedsprocenter, der er beregnet til for hver respondent. De ligner meget resultaterne i den samlede kolonne i den latente klassemodel, men er ikke helt ens (igen, hvis du er super-teknisk: dette skyldes den ikke-lineære karakter i beregningerne; en stor forskel mellem disse ville være et fingerpeg om, at modellen er dårlig). Kolonnen Total er mere præcis end kolonnen Gennemsnitlig sandsynlighed %, der er vist i denne tabel.

Jeg har plottet histogrammerne af præferencefordelingerne for hvert af mærkerne nedenfor. Disse fordelinger er baseret på vores 5-klassemodel. De er således ikke i stand til at vise mere variation i præferencerne end den, der fremgik af den tidligere analyse. Hvis vi brugte flere klasser, ville vi få mere variation. Der er dog bedre måder at opnå dette resultat på.

Tabellen nedenfor viser fordelingerne af præferenceandele fra en endnu mere kompleks model, kendt som en boosted varying coefficients-model. (Du vil ikke finde denne model i den akademiske litteratur; vi opfandt den, men koden er open source, hvis du ønsker at grave i den). Dette viser bedre fordelinger for hvert af mærkerne (bredere = bedre). Et mere teknisk blogindlæg, der diskuterer disse mere komplekse modeller, kan findes her.

Tabellen nedenfor viser præferenceandelene for hver respondent fra denne model. Tag et kig på respondent 1 og 13, som vi undersøgte i begyndelsen af indlægget. Den første respondents klare præference for Microsoft og Google og uvilje mod IBM, Nokia og Yahoo fremgår tydeligt, selv om nogle af ordningerne er flyttet en smule. Respondent 13’s modstridende valg er blevet opløst til fordel for Apple, som de to gange har valgt som deres mest foretrukne.

Fra disse andele på respondentniveau fås den gennemsnitlige sandsynlighed i % som vist i tabellen nedenfor, hvilket igen stemmer ret godt overens med resultatet af den latente klasseanalyse.

Præferencesimulering

I markedsføringsapplikationer af MaxDiff vælger folk sommetider mellem alternative produkter. Når man foretager sådanne undersøgelser, kan det være interessant at forstå præferenceandelene efter at have fjernet nogle af alternativerne. Dette er superenkeligt. Det eneste, vi skal gøre, er at slette kolonnerne for de alternativer, som vi ønsker at udelukke, og derefter basere tallene på ny, så de summerer til 100 %. Nedenfor har jeg genberegnet præferenceandelene med Samsung og Apple fjernet.

Summarum

Simple analysemetoder er ugyldige for MaxDiff. De fører til groft misvisende konklusioner. Anvendelse af mere avancerede teknikker, såsom latent klasseanalyse, vil derimod give betydeligt mere meningsfulde resultater.

Hvis du klikker her, kan du logge ind på Displayr og se alle de analyser, der blev anvendt i dette indlæg. Klik her for et indlæg om, hvordan du selv kan gøre dette i Displayr, og her for et indlæg om, hvordan du kan gøre det i Q.

Tælle de bedste scoringer (super-simpelt, super risikabelt)

Se på bedste og værste score efter respondent

En mere stringent analyse

Det magiske – latent klasseanalyse

Profilering af latente klasser

Præferenceandele på respondentniveau

Præferencesimulering

Præferencesimulering

Summarum

Skriv et svar Annuller svar