Hur MaxDiff-analysen fungerar (förenklat, men inte för dummies)

Detta inlägg förklarar den grundläggande mekaniken för hur preferenser kan mätas med hjälp av data som samlas in i ett MaxDiff-experiment. Innan du läser det här inlägget bör du först läsa A beginner’s guide to MaxDiff. Jag har arbetat hårt för att göra det här inlägget så enkelt som möjligt, men det är inte en dumbommarguide. MaxDiff är inte för dummies. I det här inlägget kommer jag att börja med att titta på de enklaste sätten att analysera MaxDiff, och arbeta oss fram till något mer rigoröst.

Räkna de bästa poängen (superenkelt, superriskfyllt)

Det enklaste sättet att analysera MaxDiff-data är att räkna upp hur många som valde varje alternativ som det mest föredragna. Tabellen nedan visar poängen. Apple är bäst. Google är näst bäst.

Detta ignorerar våra uppgifter om vilket alternativ som är sämst. Vi bör åtminstone titta på det. Det visar oss något intressant. Även om Apple är klart mest populärt har det sin beskärda del av avnämare. Så att bara fokusera på dess bästa poäng berättar inte den sanna historien.

Nästa tabell visar skillnaderna. Den visar nu att Apple och Google är nästan lika populära. Men vi vet att detta inte stämmer om vi bara tittar på de bästa betygen!

Vad är det som händer här? För det första är Apple det mest populära varumärket. Den sista tabellen är helt enkelt vilseledande. För det andra, och mindre uppenbart, är anledningen till att den sista tabellen berättar en annan historia att Apple är ett splittrat varumärke. Det har många anhängare och en hel del motståndare. Detta innebär att vi måste fokusera på att mäta preferenser på respondentnivå och gruppera liknande respondenter (dvs. segmentering). Som vi snart kommer att se finns det ett tredje problem som lurar i denna förenklade analys, och vi kommer bara att hitta det genom att skruva upp värmen på vår statistik.

Vidare bästa och sämsta poäng per respondent

Tabellen nedan visar den MaxDiff-experimentella utformning som användes vid insamlingen av data. Valen för den första respondenten i datamängden visas med färg. Blått visar vilket alternativ som valdes som bäst. Rött för det sämsta. Den fråga som vi försöker besvara är: Vilken är respondentens rangordning av preferenser mellan de 10 teknikmärkena?

Den enklaste lösningen är att räkna upp antalet gånger som varje alternativ väljs, och ge en poäng på 1 för varje gång det väljs som bäst och -1 för varje gång det väljs som sämst. Detta leder till följande poäng och rangordning av varumärkena:

Microsoft 3 > Google 1 = Samung 1 = Dell 1 > Apple = Intel = Sony > Yahoo -1 > Nokia -2 > IBM -3

Detta tillvägagångssätt är mycket enkelt och långt ifrån vetenskapligt. Titta på Yahoo. Ja, det valdes som värst en gång, och vår räkneanalys visar att det är det tredje sämsta varumärket, mindre tilltalande för respondenten än Apple, Intel och Sony. Men titta noggrannare på fråga 5. Yahoo har jämförts med Microsoft, Google, Samsung och Dell. Detta är de varumärken som respondenten valde som mest föredragna i experimentet, och därför tyder uppgifterna på att de alla är bättre än Apple, Intel och Sony. Det finns alltså inga bevis för att Yahoo faktiskt är sämre än Apple, Intel och Sony. Räkneanalysen är enkel men felaktig.

En mer rigorös analys

Vi gör analysen mer rigorös genom att ta hänsyn till vilket alternativ som jämfördes med vilka andra. Detta gör skillnad eftersom alla kombinationer av alternativ inte kan testas, eftersom det skulle leda till en enorm trötthet. Vi har redan dragit slutsatsen att Yahoo inte skiljer sig från Apple, Intel och Sony, vilket leder till:

Microsoft > Google = Samsung = Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Vilket varumärke är det näst mest föredragna? Var och en av Samsung, Google och Dell har valts som bäst en gång. Betyder detta att de alla ligger på samma andra plats? Nej, det gör det inte. I fråga 4 stod Dell mot Google, och Google föredrogs. Vi vet alltså att:

Microsoft > Google > Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Men notera att jag har tagit bort Samsung. Samsung är ett problem. Det kan stå mellan Microsoft och Google. Det kan vara mellan Google och Dell. Eller det kan vara mindre än Dell. Det finns inget sätt för oss att veta! Vi kan gissa att det har samma attraktionskraft som Dell. Jag har ritat Samsung i blått, för även om gissningen inte är fånig så är det ändå en inte superutbildad gissning:

Microsoft > Google > Samsung = Dell > Apple, Intel, Sony, Yahoo > Nokia > IBM

Ett svårare problem utgörs av respondent 13:s uppgifter. Hon valde Apple två gånger som bäst, Samsung två gånger och Google och IBM en gång vardera. Vilken är hennes favorit? Här blir det riktigt illa ställt. Uppgifterna visar att:

  • Apple > Google på 1 plats (Fråga 1)
  • Apple > IBM (Fråga 1)
  • IBM > Google (Fråga 4)
  • Google > Samsung (Fråga 5)
  • Samsung > Apple (Fråga 6)
  • Samsung > IBM (Fråga 6)

Dessa uppgifter är motsägelsefulla. Titta på de tre första punkterna. De säger oss att Apple > IBM = Google. Men de tre sista säger oss att Google > Samsung > Apple = IBM.

De flesta människors instinkt när de konfronteras med sådana här uppgifter är att säga att uppgifterna är dåliga och att kasta bort dem. Tyvärr är det inte så enkelt. Det visar sig att de flesta av oss ger inkonsekventa uppgifter i undersökningar. Vi blir distraherade och uttråkade och är mindre noggranna än vi borde. Vi ändrar oss när vi tänker. Det intressanta med MaxDiff är inte att det leder till inkonsekventa uppgifter. Det är snarare att den gör det möjligt för oss att se att uppgifterna är motsägelsefulla. Detta är faktiskt en bra sak eftersom om vi i stället, till exempel, hade bett respondenten att rangordna uppgifterna, skulle de fortfarande ha innehållit fel, men vi skulle aldrig ha sett dem eftersom vi inte skulle ha haft någon möjlighet att se inkonsekvenserna.

För att sammanfatta:

  • Att beräkna poängen för varje respondent genom att summera de bästa poängen och subtrahera de sämsta poängen är inte giltigt.
  • Vi har inte tillräckligt med data för att få en fullständig ordning av alternativen.
  • De svarande lämnar inkonsekventa data.

Troligtvis kan lite statistisk trollkonst hjälpa oss med dessa problem.

Trollkonsten – latent klassanalys

Problemet med svarande som lämnar inkonsekventa data är inte nytt. Det har varit ett aktivt område för akademisk forskning sedan 1930-talet. Det forskningsområde som behandlar detta är känt som modeller för slumpmässig nytta, och om du läser det här inlägget är du kanske redan bekant med den här klassen av modeller (t.ex. multinomial logit, latent class logit, logit med slumpmässiga parametrar, är alla modeller som löser det här problemet).

Den andra delen av problemet, som är att vi har ofullständiga uppgifter, löses genom att vi lånar uppgifter från andra respondenter. Det är förvånande för mig att även när det finns tillräckliga uppgifter för att beräkna preferenser för varje respondent för sig, är det oftast ändå bättre att uppskatta preferenser genom att kombinera deras uppgifter med uppgifter från liknande respondenter. Jag tror att detta beror på att när vi analyserar data för varje enskild respondent isolerat, överanpassar vi och misslyckas med att upptäcka att det som verkade vara preferenser egentligen var brus.

Dessa två problem löses gemensamt med hjälp av latent klassanalys. Den speciella variant som jag illustrerar nedan är latent class rank-ordered logit with ties. Det är en exotisk modell som är speciellt utvecklad för latent klassanalys. Det finns andra latenta klassmodeller som kan användas. Jag tänker inte förklara matematiken. Istället ska jag bara förklara hur man läser utfallen.

Latentklassanalys är som klusteranalys. Du lägger in en hel massa data och berättar hur många klasser (dvs. kluster) du vill ha. Tabellen nedan visar resultaten för fem klasser (dvs. segment). Resultaten för varje klass visas i kolumnerna. Klassens storlek visas överst. Under visas sannolikhetsprocent, även kallad preferensandel (dvs. den uppskattade sannolikheten att en person i segmentet kommer att föredra ett alternativ bland alla alternativ i studien).

Klass 1 består av personer som i genomsnitt har preferensordningen Samsung > Google > Microsoft > Sony > … . Den utgör 21,4 % av urvalet. Klass 2 består av personer som har en stark preferens för Apple. Klass 3 består av personer som gillar både Apple och Samsung. Personer som föredrar Sony och Nokia förekommer i klass 4, men har inga superstarka preferenser för något varumärke. Klass 5 föredrar också Apple, därefter Microsoft.

Om du tittar på kolumnen Total ser du något som kanske förvånar dig. Googles andel är endast 12,8 procent. Det är mindre än Samsung. Detta motsäger slutsatserna från de tidigare räkneanalyserna som visade att Google var det näst populäraste varumärket baserat på antalet gånger det valdes som bäst, och hals och hals med Apple när de sämsta betygen räknades in. Hur kommer det sig att den latenta klassanalysen ger oss en så annorlunda slutsats? Anledningen är att den tidigare räkneanalysen är fundamentalt felaktig.

Om vi återigen tittar på resultaten från den latenta klassen kan vi se att Google har en måttlig andel i alla segment. I det här experimentet besvarade varje person sex frågor. Antalet gånger de valde vart och ett av varumärkena som bäst över dessa frågor visas nedan. Det sätt på vilket försöksupplägget skapades är att varje alternativ endast visades tre gånger. Om du tittar på kolumnen 3 gånger i tabellen nedan visar den att 36 % av personerna valde Apple bäst 3 gånger, 20 % valde Samsung 3 gånger och 12 % valde Google bäst 3 gånger. Vi kan alltså dra slutsatsen att det är ungefär tre gånger så troligt att Apple är mest föredraget jämfört med Google. Titta nu på kolumnerna En gång och Två gånger. Google är det mest sannolika varumärket att väljas en gång. Och det är också det mest sannolika varumärket att väljas två gånger. Google är alltså det mest populära reservmärket. Detta belyser varför de grova räkneanalyserna kan vara så missvisande. Människor ombeds att göra sex val, men experimentdesignen visar dem bara det mest föredragna varumärket tre gånger, och räkneanalysen överskattar därför resultatet för de andra och tredje föredragna varumärkena.

I lösningen med fem klasser ovan är det bara Apple som tydligt dominerar något segment. Detta är ingen insikt. Det är snarare en konsekvens av det antal klasser som valdes. Om vi väljer fler klasser får vi fler segment som innehåller skarpare skillnader i preferenser. Tabellen nedan visar 10 klasser. Vi skulle lätt kunna lägga till fler. Hur många fler? Det finns några saker att göra avvägningar:

  1. Hur väl vår modell passar in på data. Ett mått på detta är BIC, som visas längst ner i tabellerna över latenta klasser. Allt annat lika, ju lägre BIC desto bättre modell. Enligt detta kriterium är 10-klassmodellen överlägsen. Allt annat är dock sällan lika, så behandla BIC som en grov vägledning som bara ibland är användbar.
  2. Stabiliteten hos den totala kolumnen. Om du jämför 10- och 5-klasslösningen kan du se att de är starkt korrelerade. Det är dock 10-klasslösningen som är den mest exakta uppskattningen (för de mer tekniska läsarna: eftersom modellen är icke-linjär är den totala kolumnen, som är en viktad summa av de andra kolumnerna, ogiltig när antalet klasser är felspecificerat).
  3. Om de märken som är av intresse för intressenten får en hög preferenspoäng i något av segmenten. I tabellen nedan finns det till exempel ett stort intresse för Apple, Samsung, Sony och Google, men om du skulle göra studien för ett annat av varumärkena skulle du förmodligen vilja öka antalet klasser för att hitta ett segment som kommer att ge gensvar hos kunden. Förutsatt att BIC fortsätter att minska finns det inget tvivelaktigt med detta.
  4. Lösningens komplexitet för intressenterna. Ju färre klasser, desto mer begripligt.

Det nedanstående donutdiagrammet visar preferensandelarna för lösningen med 10 klasser (dvs, dess kolumn Total).

Profilering av latenta klasser

När vi har skapat våra latenta klasser tilldelar vi varje person till en klass och profilerar sedan klasserna genom att skapa tabeller. Tabellen nedan visar till exempel vår lösning med fem klasser efter produktägande. Om du jämför denna tabell med själva latentklasslösningen kommer du att se att produktägandet stämmer överens med de preferenser som uppvisas i MaxDiff-frågorna.

Preferensandelar på svarsnivå

Ibland är det trevligt att ha preferensandelar för varje respondent i undersökningen. Vanligtvis används de som indata i ytterligare analyser (t.ex. segmenteringsstudier som använder flera datakällor). När du har skattat en latentklassmodell är dessa lätta att beräkna (de är en standardutgång). De är dock inte särskilt exakta. Som vi diskuterade ovan finns det inte tillräckligt med information för att beräkna en persons faktiska preferensordning, så oundvikligen är alla beräkningar av deras preferensandelar starkt beroende av de uppgifter som delas av andra respondenter, vilket i sin tur påverkas av hur bra den latenta klassmodellen är på att förklara uppgifterna. Tabellen nedan visar preferensandelarna på respondentnivå från 5-klassmodellen.

Tabellen nedan visar genomsnittet av de sannolikhetsprocenter som beräknats för varje respondent. De är mycket lika resultaten i den totala kolumnen i den latenta klassmodellen, men inte riktigt lika (återigen, om du är superteknisk: detta beror på den icke-linjära karaktären i beräkningarna; en stor skillnad mellan dessa skulle vara en ledtråd om att modellen är dålig). Kolumnen Total är mer exakt än kolumnen Medelsannolikhet % som visas i denna tabell.

Jag har plottat histogrammen för preferensfördelningarna för vart och ett av varumärkena nedan. Dessa fördelningar är baserade på vår femklassiga modell. De kan således inte visa någon större variation i preferenserna än vad som framkom i den tidigare analysen. Om vi använde fler klasser skulle vi få en större variation. Det finns dock bättre sätt att uppnå detta resultat.

Tabellen nedan visar fördelningarna av preferensandelar från en ännu mer komplex modell, en så kallad boosted varying coefficients-modell. (Du kommer inte att hitta den här modellen i den akademiska litteraturen; vi uppfann den, men koden finns som öppen källkod om du vill gräva i den). Detta visar bättre fördelningar för vart och ett av varumärkena (bredare = bättre). Ett mer tekniskt blogginlägg som diskuterar dessa mer komplexa modeller finns här.

Tabellen nedan visar preferensandelarna för varje respondent från denna modell. Ta en titt på respondenterna 1 och 13, som vi undersökte i början av inlägget. Den första respondentens tydliga preferens för Microsoft och Google och ovilja mot IBM, Nokia och Yahoo syns tydligt, även om en del av ordningsföljden har förskjutits något. Respondent 13:s motsägelsefulla val har lösts upp till förmån för Apple, som de valde två gånger som sitt mest föredragna företag.

Från dessa andelar på respondentnivå fås den genomsnittliga sannolikheten i procent enligt tabellen nedan, som återigen stämmer ganska väl överens med resultatet från den latenta klassanalysen.

Preferenssimulering

I marknadsföringstillämpningar av MaxDiff väljer människor ibland mellan alternativa produkter. När man gör sådana studier kan det vara intressant att förstå preferensandelarna efter att ha tagit bort några av alternativen. Detta är superenkelt. Allt vi behöver göra är att ta bort kolumnerna för de alternativ som vi vill utesluta och sedan basera om siffrorna så att de summerar till 100 %. Nedan har jag räknat om preferensaktierna med Samsung och Apple borttagna.

Sammanfattning

Enkla analysmetoder är ogiltiga för MaxDiff. De leder till grovt missvisande slutsatser. Tillämpning av mer avancerade tekniker, till exempel latent klassanalys, ger däremot betydligt mer meningsfulla resultat.

Om du klickar här kan du logga in på Displayr och se alla analyser som användes i det här inlägget. Klicka här för ett inlägg om hur du gör detta själv i Displayr och här för ett inlägg om hur du gör det i Q.

.

Lämna ett svar

Din e-postadress kommer inte publiceras.