Hoe MaxDiff-analyse werkt (Simplish, maar niet voor Dummies)

In dit artikel wordt uitgelegd hoe voorkeuren kunnen worden gemeten met de gegevens van een MaxDiff-experiment. Voordat u dit bericht leest, moet u eerst Een handleiding voor beginners voor MaxDiff lezen. Ik heb mijn best gedaan om deze post zo eenvoudig mogelijk te maken, maar het is geen gids voor dummies. MaxDiff is niet voor dummies. In dit artikel zal ik beginnen met de meest eenvoudige manieren om MaxDiff te analyseren, en daarna doorwerken naar iets meer rigoureus.

Tellen van de beste scores (supersimpel, super riskant)
Kijken naar beste en slechtste scores per respondent
Een meer rigoureuze analyse
De magie – latente klassenanalyse
Profilering van latente klassen
Voorkeursaandelen op respondentniveau
Voorkeursimulatie
Samenvatting

Tellen van de beste scores (supersimpel, super riskant)

De eenvoudigste manier om MaxDiff-gegevens te analyseren is om op te tellen hoeveel mensen elk alternatief als het meest geprefereerd hebben geselecteerd. De tabel hieronder toont de scores. Apple is het beste. Google is tweede beste.

Dit negeert onze gegevens over welk alternatief het slechtst is. Daar moeten we op zijn minst naar kijken. Het laat ons iets interessants zien. Hoewel Apple duidelijk het populairst is, heeft het ook heel wat tegenstanders. Dus alleen kijken naar de beste scores vertelt niet het ware verhaal.

De volgende tabel laat de verschillen zien. Hieruit blijkt dat Apple en Google bijna dezelfde voorkeur hebben. Maar door alleen naar de beste scores te kijken, weten we dat dit niet klopt.

Wat is hier aan de hand? Ten eerste, Apple is het meest populaire merk. Deze laatste tabel is gewoon misleidend. Ten tweede, en minder voor de hand liggend, is de reden dat de laatste tabel ons een ander verhaal vertelt, dat Apple een merk is dat verdeeldheid zaait. Het heeft veel aanhangers en een behoorlijk aantal tegenstanders. Dit betekent dat we ons moeten concentreren op het meten van voorkeuren op het niveau van de respondent, en het groeperen van gelijksoortige respondenten (d.w.z. segmentatie). Zoals we spoedig zullen zien, ligt er een derde probleem op de loer in deze simplistische analyse, en we zullen het alleen vinden door de verwarming van onze statistieken op te voeren.

Kijken naar beste en slechtste scores per respondent

De onderstaande tabel toont het MaxDiff-experimentele ontwerp dat is gebruikt bij het verzamelen van de gegevens. De keuzes van de eerste respondent in de dataset worden met kleur weergegeven. Blauw geeft aan welk alternatief als beste werd gekozen. Rood voor het slechtste. De vraag die we proberen te beantwoorden is, wat is de rangorde van de voorkeur van de respondent tussen de 10 tech-merken?

De eenvoudigste oplossing is om het aantal keren dat elke optie wordt gekozen op te tellen, waarbij een score van 1 wordt gegeven voor elke keer dat de optie als beste wordt gekozen en -1 voor elke keer dat deze als slechtste wordt gekozen. Dit leidt tot de volgende scores, en rangschikking, van de merken:

Microsoft 3 > Google 1 = Samung 1 = Dell 1 > Apple = Intel = Sony > Yahoo -1 > Nokia -2 > IBM -3

Deze benadering is zeer eenvoudig, en verre van wetenschappelijk. Kijk naar Yahoo. Ja, het werd een keer als slechtste merk gekozen, en onze telanalyse suggereert dat het het op twee na slechtste merk is, minder aantrekkelijk voor de respondent dan elk van Apple, Intel en Sony. Maar kijk eens wat zorgvuldiger naar vraag 5. Yahoo is vergeleken met Microsoft, Google, Samsung en Dell. Dit zijn de merken die de respondent in het experiment als meest geprefereerd koos, en dus suggereren de gegevens dat ze allemaal beter zijn dan Apple, Intel, en Sony. Dat wil zeggen, er is geen bewijs dat Yahoo in feite slechter is dan Apple, Intel en Sony. De telanalyse is eenvoudig maar onjuist.

Een meer rigoureuze analyse

We maken de analyse rigoureuzer door rekening te houden met welk alternatief met welke andere werd vergeleken. Dit maakt een verschil omdat niet alle combinaties van alternatieven kunnen worden getest, omdat dit tot enorme vermoeidheid zou leiden. We hebben al geconcludeerd dat Yahoo niet verschilt van Apple, Intel en Sony, wat leidt tot:

Microsoft > Google = Samsung = Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Welk merk heeft de op een na grootste voorkeur? Elk van Samsung, Google, en Dell zijn eenmaal als beste gekozen. Betekent dit dat ze allemaal even tweede staan? Nee, dat betekent het niet. In vraag 4 was Dell tegen Google, en kreeg Google de voorkeur. We weten dus dat:

Microsoft > Google > Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Maar, merk op dat ik Samsung heb verwijderd. Samsung is een probleem. Het kan tussen Microsoft en Google zijn. Het kan tussen Google en Dell. Of, het kan minder zijn dan Dell. We kunnen het op geen enkele manier zeggen! We kunnen wel raden dat het dezelfde aantrekkingskracht heeft als Dell. Ik heb Samsung in het blauw getekend, want hoewel het geen domme gok is, is het toch een niet-superonderbouwde gok:

Microsoft > Google > Samsung = Dell > Apple, Intel, Sony, Yahoo > Nokia > IBM

Een moeilijker probleem wordt gevormd door de gegevens van respondent 13. Zij koos Apple twee keer als beste, Samsung twee keer, en Google en IBM elk één keer. Welke is haar favoriet? Hier wordt het pas echt lelijk. Uit de gegevens blijkt dat:

Apple > Google op 1 plaats (Vraag 1)
Apple > IBM (Vraag 1)
IBM > Google (Vraag 4)
Google > Samsung (vraag 5)
Samsung > Apple (vraag 6)
Samsung > IBM (vraag 6)

Deze gegevens zijn tegenstrijdig. Kijk naar de eerste drie punten. Ze vertellen ons dat Apple > IBM = Google. Maar de laatste drie vertellen ons dat Google > Samsung > Apple = IBM.

Het instinct van de meeste mensen die met gegevens als deze worden geconfronteerd, is te zeggen dat de gegevens slecht zijn en ze weg te gooien. Helaas is het niet zo eenvoudig. Het blijkt dat de meesten van ons inconsistente gegevens geven in enquêtes. We raken afgeleid en verveeld, en gaan minder zorgvuldig te werk dan we zouden moeten. We veranderen van gedachten terwijl we denken. Het interessante van MaxDiff is niet dat het tot inconsistente gegevens leidt. Het is eerder dat het ons in staat stelt te zien dat de gegevens tegenstrijdig zijn. Dit is eigenlijk een goede zaak, want als we in plaats daarvan bijvoorbeeld de respondent hadden gevraagd de gegevens te rangschikken, zouden er nog steeds fouten in hebben gezeten, maar we zouden ze nooit hebben gezien omdat we geen gelegenheid zouden hebben gehad de inconsistenties te zien.

Om samen te vatten:

Het berekenen van scores voor elke respondent door de beste scores bij elkaar op te tellen en de slechtste scores van elkaar af te trekken is niet geldig.
We hebben niet genoeg gegevens om een volledige rangschikking van de alternatieven te krijgen.
Respondenten leveren inconsistente gegevens.

Gelukkig genoeg kan een beetje statistische tovenarij ons helpen met deze problemen.

De magie – latente klassenanalyse

Het probleem van respondenten die inconsistente gegevens leveren is niet nieuw. Het is al sinds de jaren dertig een actief terrein van academisch onderzoek. Het onderzoeksgebied dat zich hiermee bezighoudt, staat bekend als random utiliteitsmodellen, en als u dit bericht leest, bent u wellicht al bekend met deze klasse van modellen (bijv. multinomiale logit, latente klasse logit, random parameters logit, zijn allemaal modellen die dit probleem oplossen).

Het tweede deel van het probleem, namelijk dat we onvolledige gegevens hebben, wordt opgelost door gegevens te lenen van andere respondenten. Verrassend voor mij is dat zelfs wanneer er voldoende gegevens zijn om de voorkeuren voor elke respondent afzonderlijk te berekenen, het meestal toch beter is om de voorkeur te schatten door hun gegevens te combineren met die van soortgelijke respondenten. Ik denk dat dit komt doordat we, wanneer we de gegevens van elke respondent afzonderlijk analyseren, over-fitten, waardoor we niet zien dat wat op voorkeuren lijkt in werkelijkheid ruis is.

Deze twee problemen worden gezamenlijk opgelost met behulp van latente-klassenanalyse. De speciale variant die ik hieronder illustreer is latente klasse rank-ordered logit met ties. Het is een exotisch model, speciaal ontwikkeld voor latente-klasseanalyse. Er zijn andere latente-klassenmodellen die kunnen worden gebruikt. Ik ga de wiskunde niet uitleggen. In plaats daarvan zal ik alleen uitleggen hoe de uitkomsten moeten worden gelezen.

Latente klassenanalyse is net zoiets als clusteranalyse. Je stopt er een heleboel gegevens in en zegt hoeveel klassen (clusters) je wilt hebben. De tabel hieronder toont de resultaten voor vijf klassen (d.w.z. segmenten). De resultaten voor elke klasse staan in de kolommen. De grootte van de klasse staat bovenaan. Daaronder staat het percentage van de waarschijnlijkheid, ook wel voorkeursaandeel genoemd (d.w.z. de geschatte waarschijnlijkheid dat een persoon in het segment de voorkeur geeft aan een alternatief uit alle alternatieven in het onderzoek).

Klasse 1 bestaat uit mensen die gemiddeld de voorkeur hebben voor Samsung > Google > Microsoft > Sony > … . Het gaat om 21,4% van de steekproef. Klasse 2 bestaat uit mensen met een sterke voorkeur voor Apple. Klasse 3 bestaat uit mensen die zowel Apple als Samsung leuk vinden. Mensen met een voorkeur voor Sony en Nokia komen voor in klasse 4, maar hebben geen supersterke voorkeur voor een merk. Klasse 5 heeft ook een voorkeur voor Apple, daarna voor Microsoft.

Als u naar de kolom Totaal kijkt, ziet u iets dat u kan verbazen. Het aandeel van Google is slechts 12,8%. Dat is minder dan Samsung. Dit is in tegenspraak met de conclusies van de eerdere telanalyses, waaruit bleek dat Google het op een na populairste merk was op basis van het aantal keren dat het als beste werd gekozen, en nek-aan-nek met Apple wanneer de slechtste scores in aanmerking werden genomen. Hoe komt het dat de latente-klasseanalyse ons zo’n andere conclusie geeft? De reden is dat de eerdere telanalyse fundamenteel gebrekkig is.

Kijken we opnieuw naar de latente klasse-resultaten, dan zien we dat Google in alle segmenten een matig aandeel heeft. In dit experiment vulde elke persoon zes vragen in. Het aantal keren dat ze elk van de merken als beste uit die vragen kozen, wordt hieronder getoond. Het experimentele ontwerp is zo opgezet dat elk alternatief slechts drie keer werd getoond. Als je naar de kolom met 3 keer in de tabel hieronder kijkt, zie je dat 36% van de mensen Apple 3 keer als beste koos, 20% Samsung 3 keer, en 12% Google 3 keer als beste. We kunnen dus concluderen dat Apple ongeveer 3 keer meer kans maakt om de voorkeur te krijgen in vergelijking met Google. Kijk nu naar de kolommen Eenmaal en Tweemaal. Google is het meest waarschijnlijke merk om eenmaal gekozen te worden. En, het is ook het meest waarschijnlijke merk om twee keer gekozen te worden. Dus, Google is het meest populaire fallback merk. Dit toont aan waarom de ruwe telanalyses zo misleidend kunnen zijn. Mensen wordt gevraagd 6 keuzes te maken, maar de experimentele opzet toont hen slechts 3 keer hun meest geprefereerde merk, en de telanalyse overdrijft dus de prestaties van tweede en derde geprefereerde merken.

In de vijf-klassen oplossing hierboven, domineert alleen Apple duidelijk een segment. Dit is geen inzicht. Het is eerder een gevolg van het aantal klassen dat is geselecteerd. Als we meer klassen selecteren, krijgen we meer segmenten met scherpere verschillen in voorkeur. De tabel hieronder toont 10 klassen. We kunnen er gemakkelijk meer toevoegen. Hoeveel meer? Er zijn een paar afwegingen te maken:

Hoe goed past ons model bij de gegevens? Een maatstaf hiervoor is de BIC, die onder in de latente-klassentabellen staat. Hoe lager de BIC, hoe beter het model. Op dit criterium is het 10-klassenmodel superieur. Al het andere is echter zelden gelijk, dus beschouw de BIC als een ruwe leidraad die slechts soms nuttig is.
De stabiliteit van de totale kolom. Als u de 10- en de 5-klassenoplossing vergelijkt, ziet u dat zij sterk gecorreleerd zijn. Het is echter de 10-klassenoplossing die de nauwkeurigste schatting geeft (voor de meer technische lezers: aangezien het model niet-lineair is, is de totaalkolom, die een gewogen som van de andere kolommen is, ongeldig wanneer het aantal klassen verkeerd is gespecificeerd).
Wanneer de merken die voor de belanghebbende van belang zijn, in een van de segmenten een hoge voorkeursscore krijgen. In de onderstaande tabel is er bijvoorbeeld veel belangstelling voor Apple, Samsung, Sony en Google, maar als u de studie voor een ander merk zou doen, zou u waarschijnlijk het aantal klassen willen verhogen om een segment te vinden dat bij de klant aanslaat. Op voorwaarde dat de BIC blijft dalen, is hier niets mis mee.
De complexiteit van de oplossing voor belanghebbenden. Hoe minder klassen, hoe begrijpelijker.

De onderstaande donut-grafiek toont de voorkeursaandelen voor de oplossing met 10 klassen (d.w.z, de kolom Totaal).

Profilering van latente klassen

Als we eenmaal onze latente klassen hebben gecreëerd, wijzen we elke persoon aan een klasse toe en profileren we de klassen door tabellen te maken. De tabel hieronder toont bijvoorbeeld onze oplossing van 5 klassen volgens productbezit. Als u deze tabel vergelijkt met de latente klasse-oplossing zelf, ziet u dat het productbezit overeenkomt met de voorkeuren in de MaxDiff-vragen.

Voorkeursaandelen op respondentniveau

Soms is het prettig om voorkeursaandelen te hebben voor elke respondent in de enquête. Doorgaans worden deze gebruikt als input voor verdere analyses (bv. segmentatiestudies waarbij gebruik wordt gemaakt van meerdere gegevensbronnen). Zodra u een latent klassemodel hebt geschat, zijn deze gemakkelijk te berekenen (zij zijn een standaardoutput). Zij zijn echter niet supernauwkeurig. Zoals we hierboven hebben besproken, is er onvoldoende informatie om de werkelijke voorkeursvolgorde van een persoon te berekenen, zodat onvermijdelijk alle berekeningen van hun voorkeursaandelen sterk afhankelijk zijn van de gedeelde gegevens van andere respondenten, die op hun beurt worden beïnvloed door hoe goed het latente-klassenmodel is in het verklaren van de gegevens. Onderstaande tabel toont de voorkeursaandelen op respondentniveau van het 5-klassenmodel.

De onderstaande tabel toont het gemiddelde van de waarschijnlijkheidspercentages die voor elke respondent zijn berekend. Zij lijken sterk op de resultaten in de kolom Totaal van het latente-klassenmodel, maar zijn niet helemaal gelijk (nogmaals, als u supertechnisch bent: dit is te wijten aan de niet-lineariteit in de berekeningen; een groot verschil tussen deze resultaten zou een aanwijzing zijn dat het model slecht is). De kolom Totaal is nauwkeuriger dan de kolom Gemiddelde waarschijnlijkheid % in deze tabel.

Ik heb hieronder de histogrammen van de voorkeursverdelingen voor elk van de merken uitgezet. Deze verdelingen zijn gebaseerd op ons 5-klassenmodel. Zij zijn dus niet in staat meer variatie in de voorkeuren aan te tonen dan uit de eerdere analyse naar voren kwam. Als we meer klassen zouden gebruiken, zouden we meer variatie krijgen. Er zijn echter betere manieren om dit resultaat te bereiken.

De tabel hieronder toont de verdelingen van de voorkeuren op basis van een nog complexer model, dat bekend staat als een boosted varying coefficients model. (U zult dit niet in de academische literatuur vinden; wij hebben het uitgevonden, maar de code is open-source als u erin wilt duiken). Dit toont betere verdelingen voor elk van de merken (breder = beter). Een meer technische blogbijdrage waarin deze complexere modellen worden besproken, vindt u hier.

De onderstaande tabel toont de voorkeursaandelen voor elke respondent uit dit model. Kijkt u eens naar de respondenten 1 en 13, die we aan het begin van dit bericht hebben onderzocht. De duidelijke voorkeur van de eerste respondent voor Microsoft en Google, en de afkeer van IBM, Nokia en Yahoo komt naar voren, ook al is de volgorde enigszins verschoven. De tegenstrijdige selecties van respondent 13 zijn opgelost ten gunste van Apple, dat hij twee keer als zijn meest geprefereerde heeft geselecteerd.

Uit deze aandelen op respondentniveau komt het gemiddelde waarschijnlijkheidspercentage als weergegeven in de onderstaande tabel, die opnieuw vrij nauwkeurig overeenkomt met de output van de latente klassenanalyse.

Voorkeursimulatie

Soms kiezen mensen in marketingtoepassingen van MaxDiff tussen alternatieve producten. Bij dergelijke studies kan het interessant zijn om de voorkeursaandelen te begrijpen nadat enkele alternatieven zijn verwijderd. Dit is super-simpel. Het enige wat we hoeven te doen is de kolommen van de alternatieven die we willen uitsluiten te verwijderen, en vervolgens de getallen te herberekenen zodat ze optellen tot 100%. Hieronder heb ik de preferente aandelen opnieuw berekend, waarbij Samsung en Apple zijn verwijderd.

Samenvatting

Eenvoudige analysemethoden zijn ongeldig voor MaxDiff. Ze leiden tot sterk misleidende conclusies. De toepassing van meer geavanceerde technieken, zoals latente klassenanalyse, zal daarentegen aanzienlijk zinvollere resultaten opleveren.

Als u hier klikt, kunt u inloggen op Displayr en alle analyses zien die in deze post zijn gebruikt. Klik hier voor een bericht over hoe je dit zelf in Displayr kunt doen, en hier voor een bericht over hoe je het in Q.