Jak działa analiza MaxDiff (uproszczona, ale nie dla głupków)

Ten post wyjaśnia podstawowe mechanizmy pomiaru preferencji przy użyciu danych zebranych w eksperymencie MaxDiff. Zanim przeczytasz ten post, upewnij się, że najpierw przeczytasz Przewodnik dla początkujących po MaxDiff. Pracowałem ciężko, aby ten post był tak prosty, jak to tylko możliwe, ale nie jest to przewodnik dla manekinów. MaxDiff nie jest dla manekinów. W tym poście zamierzam zacząć od najprostszych sposobów analizy MaxDiff i przejść do czegoś bardziej rygorystycznego.

Liczenie najlepszych wyników (super proste, super ryzykowne)
Patrząc na najlepsze i najgorsze wyniki według respondentów
Bardziej rygorystyczna analiza
Magia – analiza klas ukrytych
Profilowanie klas ukrytych
Udziały preferencji na poziomie respondenta
Symulacja preferencji
Podsumowanie

Liczenie najlepszych wyników (super proste, super ryzykowne)

Najprostszym sposobem analizy danych MaxDiff jest policzenie ile osób wybrało każdą alternatywę jako najbardziej preferowaną. Poniższa tabela pokazuje te wyniki. Apple jest najlepsze. Google jest na drugim miejscu.

To ignoruje nasze dane na temat tego, która alternatywa jest najgorsza. Powinniśmy przynajmniej na to spojrzeć. To pokazuje nam coś ciekawego. Podczas gdy Apple jest wyraźnie najbardziej popularny, to ma swój sprawiedliwy udział krytyków. Tak więc, po prostu koncentrując się na jego najlepszych wyników nie mówi prawdziwej historii.

Następna tabela pokazuje różnice. To teraz pokazuje, że Apple i Google są prawie związane w preferencjach. Ale, wiemy z tylko patrząc na najlepsze wyniki, że to nie jest poprawne!

Co się tutaj dzieje? Po pierwsze, Apple jest najbardziej popularną marką. Ta ostatnia tabela jest po prostu myląca. Po drugie, i mniej oczywiste, powodem, że ostatnia tabela mówi nam inną historię jest to, że Apple jest podzielną marką. Ma wielu zwolenników i sporą liczbę krytyków. Oznacza to, że musimy skupić się na pomiarze preferencji na poziomie respondenta i grupowaniu podobnych respondentów (tj. segmentacji). Jak się wkrótce przekonamy, w tej uproszczonej analizie czai się trzeci problem, który znajdziemy tylko podkręcając temperaturę naszych statystyk.

Patrząc na najlepsze i najgorsze wyniki według respondentów

W poniższej tabeli przedstawiono eksperymentalny projekt MaxDiff wykorzystany podczas zbierania danych. Wybory pierwszego respondenta w zbiorze danych są zaznaczone kolorem. Kolor niebieski pokazuje, która alternatywa została wybrana jako najlepsza. Czerwony – najgorszą. Pytanie, na które próbujemy odpowiedzieć, brzmi: jaka jest kolejność respondentów w rankingu preferencji między 10 markami technologicznymi?

Najprostszym rozwiązaniem jest policzenie, ile razy każda opcja została wybrana, dając wynik 1 za każdym razem, gdy została wybrana jako najlepsza i -1 za każdym razem, gdy została wybrana jako najgorsza. Prowadzi to do następujących wyników i uporządkowania rangi marek:

Microsoft 3 > Google 1 = Samung 1 = Dell 1 > Apple = Intel = Sony > Yahoo -1 > Nokia -2 > IBM -3

To podejście jest bardzo proste i dalekie od naukowego. Spójrzmy na Yahoo. Tak, został wybrany jako najgorszy raz, a nasza analiza liczenia sugeruje, że jest to trzecia najgorsza marka, mniej atrakcyjna dla respondenta niż każdy z Apple, Intel i Sony. Przyjrzyj się jednak uważniej pytaniu 5. Yahoo zostało porównane z Microsoftem, Google, Samsungiem i Dellem. Są to marki, które respondent wybrał jako najbardziej preferowane w eksperymencie, a zatem dane sugerują, że wszystkie one są lepsze niż Apple, Intel i Sony. To znaczy, nie ma dowodów na to, że Yahoo jest w rzeczywistości gorsze od Apple, Intela i Sony. Analiza liczenia jest prosta, ale błędna.

Bardziej rygorystyczna analiza

Analizę czynimy bardziej rygorystyczną, biorąc pod uwagę, która alternatywa była porównywana z którymi innymi. Stanowi to różnicę, ponieważ nie wszystkie kombinacje alternatyw można przetestować, ponieważ prowadziłoby to do ogromnego zmęczenia. Doszliśmy już do wniosku, że Yahoo nie różni się od Apple, Intela i Sony, co prowadzi do:

Microsoft > Google = Samsung = Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Która marka jest drugą najbardziej preferowaną? Każdy z Samsungów, Google i Dell został wybrany jako najlepszy raz. Czy to oznacza, że wszystkie są na równym drugim miejscu? Nie, nie oznacza. W pytaniu 4, Dell był przeciwko Google, a Google był preferowany. Wiemy więc, że:

Microsoft > Google > Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Ale zauważ, że usunąłem Samsunga. Samsung jest problemem. To może być między Microsoftem i Google. To może być między Google i Dell. Lub, może być mniejszy niż Dell. Nie ma sposobu, abyśmy mogli to stwierdzić! Możemy zgadywać, że ma taką samą atrakcyjność jak Dell. Samsunga narysowałem na niebiesko, bo choć nie jest to głupie przypuszczenie, to jednak jest to przypuszczenie niezbyt wykształcone:

Microsoft > Google > Samsung = Dell > Apple, Intel, Sony, Yahoo > Nokia > IBM

Trudniejszy problem stwarzają dane respondentki 13. Dwa razy wybrała Apple jako najlepszy, dwa razy Samsunga, a po jednym razie Google i IBM. Który z nich jest jej ulubionym? Tu robi się naprawdę nieciekawie. Z danych wynika, że:

Apple > Google na 1 miejscu (Pytanie 1)
Apple > IBM (Pytanie 1)
IBM > Google (Pytanie 4)
Google. > Samsung (Pytanie 5)
Samsung > Apple (Pytanie 6)
Samsung > IBM (Pytanie 6)

Te dane są sprzeczne. Spójrzmy na pierwsze trzy punkty. Mówią nam one, że Apple > IBM = Google. Ale, ostatnie 3 mówią nam, że Google > Samsung > Apple = IBM.

Czynnikiem większości ludzi w konfrontacji z danymi takimi jak te jest stwierdzenie, że dane są złe i wyrzucenie ich. Niestety, nie jest to takie proste. Okazuje się, że większość z nas podaje w ankietach niespójne dane. Rozpraszamy się i nudzimy, jesteśmy mniej uważni niż powinniśmy. Zmieniamy zdanie w trakcie myślenia. Interesującą rzeczą w MaxDiff nie jest to, że prowadzi do niespójnych danych. Raczej to, że pozwala nam zobaczyć, że dane są sprzeczne. Jest to właściwie dobra rzecz, ponieważ gdybyśmy zamiast tego, na przykład, poprosili respondenta o uszeregowanie danych, nadal zawierałyby one błędy, ale nigdy byśmy ich nie zobaczyli, ponieważ nie mielibyśmy możliwości dostrzeżenia niespójności.

Podsumowując:

Obliczanie punktów dla każdego respondenta poprzez sumowanie najlepszych wyników i odejmowanie najgorszych wyników jest nieważne.
Nie mamy wystarczającej ilości danych, aby uzyskać pełne uporządkowanie alternatyw.
Respondenci dostarczają niespójnych danych.

Na szczęście, odrobina statystycznej magii może nam pomóc z tymi problemami.

Magia – analiza klas ukrytych

Problem respondentów dostarczających niespójnych danych nie jest nowy. Stanowi on aktywny obszar badań akademickich od lat trzydziestych XX wieku. Obszar badań, który zajmuje się tym problemem jest znany jako modele użyteczności losowej, a jeśli czytasz ten post, możesz być już zaznajomiony z tą klasą modeli (np. logit wielomianowy, logit klasy ukrytej, logit parametrów losowych, wszystkie są modelami, które rozwiązują ten problem).

Druga część problemu, która polega na tym, że mamy niekompletne dane, jest rozwiązywana przez pożyczanie danych od innych respondentów. Zaskakująco dla mnie, nawet jeśli istnieje wystarczająco dużo danych, aby obliczyć preferencje dla każdego respondenta z osobna, zwykle nadal lepiej jest oszacować preferencje poprzez połączenie ich danych z danymi podobnych respondentów. Myślę, że dzieje się tak dlatego, że kiedy analizujemy dane każdego respondenta osobno, przesadzamy z dopasowaniem, nie dostrzegając, że to, co wydawało się preferencjami, było w rzeczywistości szumem.

Te dwa problemy są wspólnie rozwiązywane przy użyciu analizy klas ukrytych. Specjalnym wariantem, który ilustruję poniżej, jest latent class rank-ordered logit with ties. Jest to egzotyczny model, opracowany specjalnie dla analizy klas ukrytych. Istnieją inne modele klas latentnych, które mogą być użyte. Nie mam zamiaru wyjaśniać matematyki. Zamiast tego wyjaśnię tylko, jak czytać dane wyjściowe.

Analiza klas latentnych jest jak analiza skupisk. Wprowadzasz całą masę danych i mówisz, ile klas (tj. klastrów) chcesz. Poniższa tabela przedstawia wyniki dla pięciu klas (tj. segmentów). Wyniki dla każdej klasy są wyświetlane w kolumnach. Wielkość klasy znajduje się na górze. Poniżej znajduje się Prawdopodobieństwo %, znane również jako udział preferencji (tj. szacowane prawdopodobieństwo, że osoba w segmencie będzie preferować alternatywę spośród wszystkich alternatyw w badaniu).

Klasa 1 składa się z osób, które mają, średnio, kolejność preferencji Samsung > Google > Microsoft > Sony > … . Jest to 21,4% próby. Klasa 2 składa się z osób o silnej preferencji dla Apple. Klasa 3 składa się z osób, które lubią zarówno Apple jak i Samsunga. W klasie 4 pojawiają się osoby, które preferują Sony i Nokię, ale nie mają super silnych preferencji dla żadnej marki. Klasa 5 również preferuje Apple, a następnie Microsoft.

Jeśli spojrzysz na kolumnę Total zobaczysz coś, co może Cię zaskoczyć. Udział Google wynosi zaledwie 12,8%. Jest to mniej niż Samsung. Zaprzecza to wnioskom z wcześniejszych analiz liczenia, które pokazały Google jako drugą najpopularniejszą markę w oparciu o liczbę razy została wybrana jako najlepsza, a szyja w szyję z Apple, gdy najgorsze wyniki zostały uwzględnione. Jak to jest, że analiza klas ukrytych daje nam tak różne wnioski? Powodem jest to, że wcześniejsza analiza liczenia jest fundamentalnie flawed.

Patrząc ponownie na wyniki klasy ukrytej, możemy zobaczyć, że Google ma umiarkowany udział we wszystkich segmentach. W tym eksperymencie, każda osoba wypełniła sześć pytań. Poniżej przedstawiono liczbę wyborów każdej z marek jako najlepszej w tych pytaniach. Sposób eksperymentalny projekt został stworzony jest to, że każda alternatywa została pokazana tylko trzy razy. Jeśli spojrzeć na 3 razy kolumnie w tabeli poniżej, to pokazuje, że 36% ludzi wybrać Apple najlepiej 3 razy, 20% wybrał Samsung 3 razy, a 12% wybrał Google najlepiej 3 razy. Tak więc, możemy stwierdzić, że Apple jest około 3 razy bardziej prawdopodobne, aby być najbardziej preferowane w porównaniu do Google. Teraz spójrzmy na kolumny Raz i Dwa razy. Google jest najbardziej prawdopodobną marką, która zostanie wybrana raz. Jest to również najbardziej prawdopodobna marka, która zostanie wybrana dwukrotnie. Tak więc Google jest najbardziej popularną marką awaryjną. To podkreśla, dlaczego surowe analizy liczenia może być tak mylące. Ludzie są proszeni o dokonanie 6 wyborów, ale eksperymentalny projekt pokazuje im tylko ich najbardziej preferowaną markę 3 razy, a analiza zliczania w ten sposób zawyża wydajność drugich i trzecich preferowanych marek.

W pięcioklasowym rozwiązaniu powyżej, tylko Apple wyraźnie dominuje w każdym segmencie. To nie jest spostrzeżenie. Jest to raczej konsekwencja liczby klas, które zostały wybrane. Jeśli wybierzemy więcej klas, otrzymamy więcej segmentów zawierających ostrzejsze różnice w preferencjach. Poniższa tabela przedstawia 10 klas. Z łatwością moglibyśmy dodać ich więcej. Ile jeszcze? Jest kilka rzeczy do przehandlowania:

Jak dobrze nasz model pasuje do danych. Jedną z miar tego jest współczynnik BIC, który jest pokazany na dole tabel klas ukrytych. Im niższy współczynnik BIC, tym lepszy model. Na podstawie tego kryterium model 10-klasowy jest lepszy. Jednakże, wszystko inne rzadko jest równe, więc traktuj BIC jako tylko przybliżony przewodnik, który jest tylko czasami użyteczny.
Stabilność całkowitej kolumny. Jeśli porównasz rozwiązanie 10 i 5 klasowe, możesz zobaczyć, że są one wysoce skorelowane. Jednak to rozwiązanie 10-klasowe jest najdokładniejszym oszacowaniem (dla bardziej technicznych czytelników: ponieważ model jest nieliniowy, kolumna całkowita, która jest sumą ważoną innych kolumn, jest nieważna, gdy liczba klas jest źle określona).
Czy marki interesujące interesariusza uzyskują wysoki wynik preferencji w którymkolwiek z segmentów. Na przykład, w poniższej tabeli widać duże zainteresowanie Apple, Samsungiem, Sony i Google, ale gdybyśmy przeprowadzali badanie dla innej z tych marek, prawdopodobnie chcielibyśmy zwiększyć liczbę klas, aby znaleźć segment, który będzie rezonował z klientem. Pod warunkiem, że BIC ciągle maleje, nie ma w tym nic podejrzanego.
Złożoność rozwiązania dla interesariuszy. Im mniej klas, tym bardziej zrozumiałe.

Poniższy wykres przedstawia udziały preferencji dla rozwiązania 10-klasowego (tj, jego kolumna Razem).

Profilowanie klas ukrytych

Po utworzeniu naszych klas ukrytych, przypisujemy każdą osobę do klasy, a następnie profilujemy klasy poprzez tworzenie tabel. Poniższa tabela, na przykład, pokazuje nasze 5-klasowe rozwiązanie według własności produktu. Jeśli porównamy tę tabelę z samym rozwiązaniem klasy ukrytej, zobaczymy, że własność produktu jest zgodna z preferencjami wykazanymi w pytaniach MaxDiff.

Udziały preferencji na poziomie respondenta

Czasami dobrze jest mieć udziały preferencji dla każdego respondenta w badaniu. Zazwyczaj są one używane jako dane wejściowe do dalszych analiz (np. badania segmentacji z wykorzystaniem wielu źródeł danych). Po oszacowaniu modelu klasy latentnej można je łatwo obliczyć (są to standardowe dane wyjściowe). Jednakże, nie są one super-dokładne. | W którym roku [ubiegał się Pan/ubiegała się Pani] o rentę inwalidzką z tytułu niezdolności do pracy lub o dodatek opiekuńczy? ANKIETER:

Poniższa tabela pokazuje średnie procentowe prawdopodobieństwa obliczone dla każdego respondenta. Jest to bardzo podobne do wyników w kolumnie „Ogółem” modelu klasy ukrytej, ale nie całkiem takie same (ponownie, jeśli jesteś super-techniczny: wynika to z nieliniowości w obliczeniach; duża różnica między nimi byłaby wskazówką, że model jest słaby). Kolumna Total jest dokładniejsza niż kolumna Mean Probability % pokazana w tej tabeli.

Wykreśliłem histogramy rozkładów preferencji dla każdej z marek poniżej. Rozkłady te są oparte na naszym 5 klasowym modelu. Dlatego nie są one w stanie pokazać żadnego większego zróżnicowania preferencji niż to, które ujawniła wcześniejsza analiza. Gdybyśmy użyli więcej klas, uzyskalibyśmy większe zróżnicowanie. Istnieją jednak lepsze sposoby osiągnięcia tego wyniku.

Tabela poniżej pokazuje rozkłady udziałów preferencji z jeszcze bardziej złożonego modelu, znanego jako model wzmocnionych zmiennych współczynników. (Nie znajdziesz tego w literaturze naukowej; wymyśliliśmy go, ale kod jest dostępny na wolnym dostępie, jeśli chcesz się w niego zagłębić). Pokazuje to lepsze rozkłady dla każdej z marek (szerszy = lepszy). Bardziej techniczny wpis na blogu, który omawia te bardziej złożone modele, można znaleźć tutaj.

Tabela poniżej pokazuje udziały preferencji dla każdego respondenta z tego modelu. Spójrzmy na respondentów 1 i 13, którym przyjrzeliśmy się na początku tego wpisu. Pierwszy respondent wyraźnie preferuje Microsoft i Google, a nie lubi IBM, Nokii i Yahoo, nawet jeśli kolejność niektórych z nich nieco się zmieniła. Sprzeczne wybory respondenta 13 zostały rozstrzygnięte na korzyść firmy Apple, którą respondenci wybrali dwukrotnie jako najbardziej preferowaną.

Z tych udziałów na poziomie respondentów wynika Średnie Prawdopodobieństwo %, jak pokazano w poniższej tabeli, która ponownie pasuje do wyników analizy klas ukrytych.

Symulacja preferencji

Czasami w zastosowaniach marketingowych MaxDiff ludzie wybierają między alternatywnymi produktami. Podczas wykonywania takich badań interesujące może być zrozumienie udziałów preferencji po usunięciu niektórych alternatyw. To jest super proste. Wszystko, co musimy zrobić, to usunąć kolumny z alternatywami, które chcemy wykluczyć, a następnie ponownie obliczyć liczby tak, aby sumowały się do 100%. Poniżej przeliczyłem udziały uprzywilejowane z usuniętymi Samsungiem i Apple.

Podsumowanie

Proste metody analizy są nieważne dla MaxDiff. Prowadzą one do rażąco mylnych wniosków. Zastosowanie bardziej zaawansowanych technik, takich jak analiza klas ukrytych, da z drugiej strony znacznie bardziej znaczące wyniki.

Jeśli klikniesz tutaj, możesz zalogować się do Displayr i zobaczyć wszystkie analizy, które zostały użyte w tym poście. Kliknij tutaj, aby dowiedzieć się jak zrobić to samemu w Displayr, i tutaj, aby dowiedzieć się jak zrobić to w Q.