Wie die MaxDiff-Analyse funktioniert (vereinfacht, aber nicht für Dummies)

Dieser Beitrag erklärt die grundlegenden Mechanismen, wie Präferenzen anhand der in einem MaxDiff-Experiment gesammelten Daten gemessen werden können. Bevor Sie diesen Beitrag lesen, sollten Sie zuerst A beginner’s guide to MaxDiff lesen. Ich habe mich bemüht, diesen Beitrag so einfach wie möglich zu gestalten, aber er ist kein Leitfaden für Dummies. MaxDiff ist nichts für Dummies. In diesem Beitrag beginne ich mit den einfachsten Methoden der MaxDiff-Analyse und arbeite mich dann zu etwas Strengerem vor.

Zählen der besten Ergebnisse (supereinfach, superriskant)
Bestes und schlechtestes Ergebnis nach Befragtem
Eine strengere Analyse
Die Magie – latente Klassenanalyse
Profilierung latenter Klassen
Präferenzanteile auf Befragungsebene
Präferenzsimulation
Zusammenfassung

Zählen der besten Ergebnisse (supereinfach, superriskant)

Die einfachste Art, MaxDiff-Daten zu analysieren, besteht darin, zu zählen, wie viele Personen die einzelnen Alternativen als die bevorzugten ausgewählt haben. Die folgende Tabelle zeigt die Ergebnisse. Apple ist am besten. Google ist am zweitbesten.

Dabei werden unsere Daten darüber, welche Alternative am schlechtesten ist, ignoriert. Wir sollten uns das zumindest ansehen. Sie zeigen uns etwas Interessantes. Apple ist zwar eindeutig der beliebteste Anbieter, hat aber auch eine ganze Reihe von Kritikern. Wenn wir uns also nur auf die besten Ergebnisse konzentrieren, wird die wahre Geschichte nicht erzählt.

Die nächste Tabelle zeigt die Unterschiede. Sie zeigt nun, dass Apple und Google in der Präferenz fast gleichauf liegen. Aber wir wissen, dass dies nicht stimmt, wenn wir nur die besten Werte betrachten.

Was ist hier los? Erstens: Apple ist die beliebteste Marke. Diese letzte Tabelle ist einfach irreführend. Zweitens, und weniger offensichtlich, ist der Grund dafür, dass die letzte Tabelle etwas anderes aussagt, dass Apple eine gespaltene Marke ist. Sie hat viele Anhänger und eine ganze Reihe von Gegnern. Das bedeutet, dass wir uns darauf konzentrieren müssen, die Präferenzen auf der Ebene der Befragten zu messen und ähnliche Befragte zu gruppieren (d. h. zu segmentieren). Wie wir gleich sehen werden, lauert noch ein drittes Problem in dieser vereinfachten Analyse, und wir werden es nur finden, wenn wir unsere Statistiken genauer unter die Lupe nehmen.

Bestes und schlechtestes Ergebnis nach Befragtem

Die nachstehende Tabelle zeigt das MaxDiff-Versuchsdesign, das bei der Datenerhebung verwendet wurde. Die Entscheidungen des ersten Befragten im Datensatz sind farblich gekennzeichnet. Blau zeigt an, welche Alternative als beste gewählt wurde. Rot für die schlechteste. Die Frage, die wir zu beantworten versuchen, lautet: Wie sieht die Rangfolge der Präferenzen der Befragten zwischen den 10 Technologiemarken aus?

Die einfachste Lösung besteht darin, die Häufigkeit der Wahl jeder Option zu zählen, wobei jedes Mal, wenn sie als beste Option gewählt wird, ein Wert von 1 und jedes Mal, wenn sie als schlechteste gewählt wird, ein Wert von -1 vergeben wird. Dies führt zu den folgenden Punktzahlen und der Rangfolge der Marken:

Microsoft 3 > Google 1 = Samung 1 = Dell 1 > Apple = Intel = Sony > Yahoo -1 > Nokia -2 > IBM -3

Dieser Ansatz ist sehr einfach und alles andere als wissenschaftlich. Sehen Sie sich Yahoo an. Ja, es wurde einmal als schlechteste Marke gewählt, und unsere Zählanalyse legt nahe, dass es die drittschlechteste Marke ist, weniger attraktiv für die Befragten als Apple, Intel und Sony. Sehen Sie sich jedoch Frage 5 genauer an. Yahoo wurde mit Microsoft, Google, Samsung und Dell verglichen. Dies sind die Marken, die der Befragte in dem Experiment am meisten bevorzugt hat, und die Daten deuten darauf hin, dass sie alle besser sind als Apple, Intel und Sony. Das heißt, es gibt keinen Hinweis darauf, dass Yahoo tatsächlich schlechter ist als Apple, Intel und Sony. Die Zählanalyse ist einfach, aber falsch.

Eine strengere Analyse

Wir machen die Analyse strenger, indem wir berücksichtigen, welche Alternative mit welchen anderen verglichen wurde. Das macht einen Unterschied, weil nicht alle Kombinationen von Alternativen getestet werden können, da dies zu einer enormen Ermüdung führen würde. Wir haben bereits festgestellt, dass sich Yahoo nicht von Apple, Intel und Sony unterscheidet, was zu folgenden Ergebnissen führt:

Microsoft > Google = Samsung = Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Welche Marke wird am zweitmeisten bevorzugt? Samsung, Google und Dell wurden jeweils einmal als beste Marke gewählt. Bedeutet das, dass sie alle gleichauf an zweiter Stelle liegen? Nein, das bedeutet es nicht. In Frage 4 lag Dell gegen Google, und Google wurde bevorzugt. Wir wissen also, dass:

Microsoft > Google > Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Aber beachten Sie, dass ich Samsung entfernt habe. Samsung ist ein Problem. Es kann zwischen Microsoft und Google sein. Es kann zwischen Google und Dell liegen. Oder es kann weniger als Dell sein. Das können wir nicht sagen! Wir können nur vermuten, dass es die gleiche Anziehungskraft hat wie Dell. Ich habe Samsung blau gezeichnet, da die Vermutung zwar nicht dumm ist, aber dennoch eine nicht besonders fundierte Vermutung ist:

Microsoft > Google > Samsung = Dell > Apple, Intel, Sony, Yahoo > Nokia > IBM

Ein schwierigeres Problem stellen die Daten der Befragten 13 dar. Sie wählte zweimal Apple, zweimal Samsung und je einmal Google und IBM als besten Anbieter. Welches ist ihr Favorit? Hier wird es richtig hässlich. Die Daten zeigen, dass:

Apple > Google auf Platz 1 (Frage 1)
Apple > IBM (Frage 1)
IBM > Google (Frage 4)
Google > Samsung (Frage 5)
Samsung > Apple (Frage 6)
Samsung > IBM (Frage 6)

Diese Daten sind widersprüchlich. Schau dir die ersten drei Punkte an. Sie sagen uns, dass Apple > IBM = Google. Aber die letzten 3 sagen uns, dass Google > Samsung > Apple = IBM.

Der Instinkt der meisten Leute, wenn sie mit solchen Daten konfrontiert werden, ist zu sagen, dass die Daten schlecht sind und sie wegzuwerfen. Leider ist das nicht so einfach. Es stellt sich heraus, dass die meisten von uns in Umfragen widersprüchliche Angaben machen. Wir lassen uns ablenken und langweilen uns und sind weniger sorgfältig, als wir sollten. Wir ändern unsere Meinung, während wir nachdenken. Das Interessante an MaxDiff ist nicht, dass es zu inkonsistenten Daten führt. Das Interessante an MaxDiff ist nicht, dass es zu widersprüchlichen Daten führt, sondern dass es uns ermöglicht zu sehen, dass die Daten widersprüchlich sind. Das ist eigentlich eine gute Sache, denn wenn wir stattdessen zum Beispiel den Befragten gebeten hätten, die Daten in eine Rangfolge zu bringen, hätten sie zwar immer noch Fehler enthalten, aber wir hätten sie nie gesehen, da wir keine Gelegenheit gehabt hätten, die Widersprüche zu erkennen.

Zusammenfassend:

Die Berechnung der Punktzahlen für jeden Befragten durch Aufsummieren der besten Punktzahlen und Subtraktion der schlechtesten Punktzahlen ist nicht gültig.
Wir haben nicht genügend Daten, um eine vollständige Ordnung der Alternativen zu erhalten.
Die Befragten liefern inkonsistente Daten.

Glücklicherweise kann uns ein bisschen statistische Zauberei bei diesen Problemen helfen.

Die Magie – latente Klassenanalyse

Das Problem, dass die Befragten inkonsistente Daten liefern, ist nicht neu. Es ist seit den 1930er Jahren ein aktives Gebiet der akademischen Forschung. Der Forschungsbereich, der sich damit befasst, ist als Zufallsnutzenmodelle bekannt, und wenn Sie diesen Beitrag lesen, sind Sie vielleicht bereits mit dieser Klasse von Modellen vertraut (z. B. multinomiales Logit, latentes Klassenlogit, Logit mit Zufallsparametern sind alles Modelle, die dieses Problem lösen).

Der zweite Teil des Problems, nämlich die Tatsache, dass wir unvollständige Daten haben, wird gelöst, indem wir Daten von anderen Befragten ausleihen. Überraschenderweise ist es selbst dann, wenn genügend Daten vorhanden sind, um die Präferenzen für jeden einzelnen Befragten zu berechnen, in der Regel immer noch besser, die Präferenzen durch die Kombination ihrer Daten mit denen ähnlicher Befragter zu schätzen. Ich denke, das liegt daran, dass wir bei der isolierten Analyse der Daten jedes einzelnen Befragten eine Überanpassung vornehmen und nicht erkennen, dass das, was wie Präferenzen aussieht, in Wirklichkeit Rauschen ist.

Diese beiden Probleme werden gemeinsam mit der Analyse latenter Klassen gelöst. Die spezielle Variante, die ich im Folgenden illustriere, ist das latent class rank-ordered logit with ties. Es ist ein exotisches Modell, das speziell für die Latent-Class-Analyse entwickelt wurde. Es gibt auch andere latente Klassenmodelle, die verwendet werden können. Ich werde nicht auf die mathematischen Grundlagen eingehen. Stattdessen werde ich nur erklären, wie die Ergebnisse zu lesen sind.

Die Analyse latenter Klassen ist wie eine Clusteranalyse. Man gibt eine ganze Menge Daten ein und sagt dem Programm, wie viele Klassen (d.h. Cluster) man haben möchte. Die folgende Tabelle zeigt die Ergebnisse für fünf Klassen (d. h. Segmente). Die Ergebnisse für jede Klasse werden in den Spalten angezeigt. Die Größe der Klasse wird oben angezeigt. Darunter steht die Wahrscheinlichkeit in %, die auch als Präferenzanteil bezeichnet wird (d. h. die geschätzte Wahrscheinlichkeit, dass eine Person in dem Segment eine Alternative aus allen Alternativen in der Studie bevorzugt).

Klasse 1 besteht aus Personen, die im Durchschnitt die Präferenzordnung Samsung > Google > Microsoft > Sony > … haben. Das sind 21,4 % der Stichprobe. Klasse 2 besteht aus Personen mit einer starken Vorliebe für Apple. Klasse 3 besteht aus Personen, die sowohl Apple als auch Samsung mögen. Personen, die Sony und Nokia bevorzugen, erscheinen in Klasse 4, haben aber keine besonders starke Präferenz für eine Marke. Klasse 5 bevorzugt ebenfalls Apple, dann Microsoft.

Wenn Sie sich die Spalte Gesamt ansehen, werden Sie etwas sehen, das Sie vielleicht überrascht. Der Anteil von Google beträgt nur 12,8 %. Das ist weniger als bei Samsung. Dies steht im Widerspruch zu den Schlussfolgerungen aus den früheren Zählanalysen, die zeigten, dass Google die zweitbeliebteste Marke ist, wenn man die Anzahl der besten Bewertungen berücksichtigt, und Kopf an Kopf mit Apple liegt, wenn die schlechtesten Bewertungen berücksichtigt werden. Wie kommt es, dass die Analyse der latenten Klassen zu einem so unterschiedlichen Ergebnis führt? Der Grund dafür ist, dass die frühere Zählanalyse grundlegend fehlerhaft ist.

Betrachten wir die Ergebnisse der latenten Klasse erneut, so sehen wir, dass Google in allen Segmenten einen mäßigen Anteil hat. In diesem Experiment beantwortete jede Person sechs Fragen. Die Anzahl der Nennungen der einzelnen Marken bei diesen Fragen ist unten dargestellt. Der Versuchsplan wurde so angelegt, dass jede Alternative nur dreimal angezeigt wurde. Aus der Spalte „3 Mal“ in der Tabelle unten geht hervor, dass 36 % der Befragten dreimal Apple, 20 % dreimal Samsung und 12 % dreimal Google am häufigsten gewählt haben. Daraus können wir schließen, dass Apple im Vergleich zu Google etwa dreimal so häufig bevorzugt wird. Betrachten wir nun die Spalten Einmal und Zweimal. Google ist die Marke, die am ehesten einmal gewählt wird. Und es ist auch die Marke, die am ehesten zweimal gewählt wird. Google ist also die beliebteste Ausweichmarke. Dies zeigt, warum die groben Zählanalysen so irreführend sein können. Die Menschen werden gebeten, 6 Entscheidungen zu treffen, aber der Versuchsplan zeigt ihnen nur dreimal ihre bevorzugte Marke, und die Zählanalyse überhöht daher die Leistung der zweit- und drittpräferierten Marken.

In der obigen Fünf-Klassen-Lösung dominiert nur Apple eindeutig ein Segment. Dies ist keine Erkenntnis. Vielmehr ist es eine Folge der Anzahl der ausgewählten Klassen. Wenn wir mehr Klassen auswählen, erhalten wir mehr Segmente mit stärkeren Unterschieden in den Präferenzen. In der folgenden Tabelle sind 10 Klassen aufgeführt. Wir könnten leicht weitere hinzufügen. Wie viele mehr? Es gibt ein paar Dinge abzuwägen:

Wie gut unser Modell zu den Daten passt. Ein Maß dafür ist der BIC, der unten in den Tabellen der latenten Klassen angezeigt wird. Je niedriger der BIC-Wert ist, desto besser ist das Modell, wenn alle anderen Kriterien gleich sind. Bei diesem Kriterium ist das 10-Klassen-Modell überlegen. Der BIC ist also nur ein grober Anhaltspunkt, der nur manchmal nützlich ist.
Die Stabilität der Gesamtsäule. Vergleicht man die 10- und 5-Klassen-Lösung, so stellt man fest, dass sie hoch korreliert sind. Allerdings ist die 10-Klassen-Lösung die genaueste Schätzung (für die technisch interessierten Leser: Da das Modell nichtlinear ist, ist die Gesamtspalte, die eine gewichtete Summe der anderen Spalten ist, ungültig, wenn die Anzahl der Klassen falsch spezifiziert ist).
Ob die Marken, die für den Stakeholder von Interesse sind, in irgendeinem der Segmente eine hohe Präferenzbewertung erhalten. In der nachstehenden Tabelle besteht beispielsweise ein großes Interesse an Apple, Samsung, Sony und Google, aber wenn Sie die Studie für eine andere Marke durchführen würden, würden Sie wahrscheinlich die Anzahl der Klassen erhöhen wollen, um ein Segment zu finden, das beim Kunden Anklang findet. Unter der Voraussetzung, dass der BIC weiter sinkt, ist daran nichts auszusetzen.
Die Komplexität der Lösung für die Beteiligten. Je weniger Klassen, desto verständlicher.

Das folgende Donut-Diagramm zeigt die Präferenzanteile für die 10-Klassen-Lösung (d.h.,

Profilierung latenter Klassen

Nachdem wir unsere latenten Klassen erstellt haben, ordnen wir jede Person einer Klasse zu und erstellen dann Profile für die Klassen, indem wir Tabellen erstellen. Die folgende Tabelle zeigt zum Beispiel unsere 5-Klassen-Lösung nach Produktbesitz. Wenn Sie diese Tabelle mit der Lösung für die latenten Klassen selbst vergleichen, werden Sie sehen, dass der Produktbesitz mit den in den MaxDiff-Fragen gezeigten Präferenzen übereinstimmt.

Präferenzanteile auf Befragungsebene

Gelegentlich ist es sinnvoll, Präferenzanteile für jeden Befragten in der Umfrage zu haben. In der Regel werden sie als Input für weitere Analysen verwendet (z. B. Segmentierungsstudien mit mehreren Datenquellen). Sobald Sie ein latentes Klassenmodell geschätzt haben, sind sie leicht zu berechnen (sie sind eine Standardausgabe). Allerdings sind sie nicht besonders genau. Wie bereits erwähnt, reichen die Informationen nicht aus, um die tatsächliche Präferenzordnung einer Person zu berechnen, so dass alle Berechnungen ihrer Präferenzanteile zwangsläufig in hohem Maße von den Daten anderer Befragter abhängen, die wiederum davon beeinflusst werden, wie gut das latente Klassenmodell die Daten erklärt. Die nachstehende Tabelle zeigt die Präferenzanteile der Befragten aus dem 5-Klassen-Modell.

Die nachstehende Tabelle zeigt den Durchschnitt der für jeden Befragten berechneten Wahrscheinlichkeitsprozentsätze. Sie sind den Ergebnissen in der Gesamtspalte des latenten Klassenmodells sehr ähnlich, aber nicht ganz gleich (noch einmal, falls Sie super-technisch veranlagt sind: das liegt an der Nichtlinearität der Berechnungen; ein großer Unterschied zwischen ihnen wäre ein Hinweis darauf, dass das Modell schlecht ist). Die Spalte „Gesamt“ ist genauer als die Spalte „Mittlere Wahrscheinlichkeit in %“ in dieser Tabelle.

Ich habe die Histogramme der Präferenzverteilungen für jede der Marken unten aufgetragen. Diese Verteilungen beruhen auf unserem 5-Klassen-Modell. Sie können also nicht mehr Variationen in den Präferenzen zeigen, als in der früheren Analyse aufgedeckt wurden. Würden wir mehr Klassen verwenden, würden wir mehr Variationen erhalten. Es gibt jedoch bessere Möglichkeiten, dieses Ergebnis zu erzielen.

Die folgende Tabelle zeigt die Verteilungen der Präferenzanteile anhand eines noch komplexeren Modells, das als Modell mit verstärkten variierenden Koeffizienten bekannt ist. (Dieses Modell ist in der akademischen Literatur nicht zu finden; wir haben es erfunden, aber der Code ist als Open-Source verfügbar, falls Sie sich damit befassen möchten). Dies zeigt bessere Verteilungen für jede der Marken (breiter = besser). Einen technischeren Blogbeitrag, der diese komplexeren Modelle erörtert, finden Sie hier.

Die nachstehende Tabelle zeigt die Präferenzanteile für jeden Befragten aus diesem Modell. Schauen Sie sich die Befragten 1 und 13 an, die wir zu Beginn des Beitrags untersucht haben. Die eindeutige Präferenz des ersten Befragten für Microsoft und Google und seine Abneigung gegen IBM, Nokia und Yahoo ist deutlich zu erkennen, auch wenn sich die Reihenfolge teilweise leicht verschoben hat. Die widersprüchliche Auswahl von Befragtem 13 wurde zugunsten von Apple aufgelöst, das er zweimal als bevorzugtes Unternehmen auswählte.

Aus diesen Anteilen auf Befragtenebene ergibt sich die mittlere Wahrscheinlichkeit in %, wie in der nachstehenden Tabelle dargestellt, die wiederum recht gut mit dem Ergebnis der latenten Klassenanalyse übereinstimmt.

Präferenzsimulation

Gelegentlich werden in Marketinganwendungen von MaxDiff Personen zwischen alternativen Produkten ausgewählt. Bei solchen Studien kann es interessant sein, die Präferenzanteile zu verstehen, nachdem man einige der Alternativen entfernt hat. Das ist supereinfach. Alles, was wir tun müssen, ist, die Spalten der Alternativen zu löschen, die wir ausschließen wollen, und dann die Zahlen neu zu berechnen, so dass sie sich zu 100 % addieren. Unten habe ich die Vorzugsaktien ohne Samsung und Apple neu berechnet.

Zusammenfassung

Einfache Analysemethoden sind für MaxDiff ungültig. Sie führen zu grob irreführenden Schlussfolgerungen. Die Anwendung fortschrittlicherer Techniken, wie z. B. die Analyse latenter Klassen, führt dagegen zu wesentlich aussagekräftigeren Ergebnissen.

Wenn Sie hier klicken, können Sie sich bei Displayr anmelden und alle Analysen sehen, die in diesem Beitrag verwendet wurden. Klicken Sie hier, um zu erfahren, wie Sie dies in Displayr selbst tun können, und hier, um zu erfahren, wie Sie es in Q tun können.