How MaxDiff Analysis Works (Simplish, but Not for Dummies)

Această postare explică mecanismele de bază ale modului în care pot fi măsurate preferințele folosind datele colectate într-un experiment MaxDiff. Înainte de a citi această postare, asigurați-vă că ați citit mai întâi Ghidul unui începător pentru MaxDiff. M-am străduit să fac acest post cât mai simplu posibil, dar nu este un ghid pentru începători. MaxDiff nu este pentru proști. În această postare voi începe prin a analiza cele mai simple moduri de a analiza MaxDiff și vom ajunge la ceva mai riguros.

Contând cele mai bune scoruri (super-simplu, super-riscat)

Cel mai simplu mod de a analiza datele MaxDiff este de a număra câte persoane au selectat fiecare alternativă ca fiind cea mai preferată. Tabelul de mai jos prezintă scorurile. Apple este cea mai bună. Google este al doilea cel mai bun.

Aceasta ignoră datele noastre despre care alternativă este cea mai rea. Ar trebui să ne uităm cel puțin la asta. Ne arată ceva interesant. În timp ce Apple este în mod clar cea mai populară, are partea sa echitabilă de detractori. Așadar, concentrarea doar pe cele mai bune scoruri ale sale nu spune adevărata poveste.

Următorul tabel arată diferențele. Acesta arată acum că Apple și Google sunt aproape la egalitate în preferințe. Dar, știm, doar uitându-ne la cele mai bune scoruri, că acest lucru nu este corect!

Ce se întâmplă aici? În primul rând, Apple este cea mai populară marcă. Acest ultim tabel este pur și simplu înșelător. În al doilea rând, și mai puțin evident, motivul pentru care ultimul tabel ne spune o poveste diferită este că Apple este o marcă care divizează. Are o mulțime de adepți și un număr destul de mare de detractori. Acest lucru înseamnă că trebuie să ne concentrăm pe măsurarea preferințelor la nivelul respondenților și pe gruparea respondenților similari (de exemplu, segmentarea). După cum vom vedea în curând, există o a treia problemă care se ascunde în această analiză simplistă și pe care o vom găsi doar dacă vom mări căldura în statisticile noastre.

Urmărind cele mai bune și cele mai proaste scoruri în funcție de respondent

Tabelul de mai jos arată designul experimental MaxDiff utilizat la colectarea datelor. Alegerile primului respondent din setul de date sunt afișate prin culoare. Albastrul arată ce alternativă a fost aleasă ca fiind cea mai bună. Roșu pentru cea mai proastă. Întrebarea la care încercăm să răspundem este: care este ordinea de preferință a respondentului între cele 10 mărci de tehnologie?

Soluția cea mai simplă este de a număra numărul de ori de câte ori este aleasă fiecare opțiune, acordând un scor de 1 pentru fiecare dată când este aleasă ca fiind cea mai bună și -1 pentru fiecare dată când este aleasă ca fiind cea mai proastă. Acest lucru conduce la următoarele scoruri, și la următoarea ierarhizare a mărcilor:

Microsoft 3 > Google 1 = Samung 1 = Dell 1 > Apple = Intel = Sony > Yahoo -1 > Nokia -2 > IBM -3

Această abordare este foarte simplă și departe de a fi științifică. Uitați-vă la Yahoo. Da, a fost aleasă ca fiind cea mai proastă o dată, iar analiza noastră de numărare sugerează că este a treia cea mai proastă marcă, mai puțin atrăgătoare pentru respondent decât fiecare dintre Apple, Intel și Sony. Cu toate acestea, uitați-vă mai atent la întrebarea 5. Yahoo a fost comparat cu Microsoft, Google, Samsung și Dell. Acestea sunt mărcile pe care respondentul le-a ales ca fiind cele mai preferate în cadrul experimentului și, prin urmare, datele sugerează că toate acestea sunt mai bune decât Apple, Intel și Sony. Altfel spus, nu există nicio dovadă că Yahoo este de fapt mai rău decât Apple, Intel și Sony. Analiza de numărare este simplă, dar greșită.

O analiză mai riguroasă

Facem analiza mai riguroasă luând în considerare care alternativă a fost comparată cu care altele. Acest lucru face o diferență deoarece nu pot fi testate toate combinațiile de alternative, deoarece ar duce la o oboseală enormă. Am ajuns deja la concluzia că Yahoo nu se deosebește de Apple, Intel și Sony, ceea ce duce la:

Microsoft > Google = Samsung = Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Ce marcă este a doua cea mai preferată? Fiecare dintre Samsung, Google și Dell au fost alese ca fiind cele mai bune o dată. Înseamnă că toate sunt la egalitate pe locul doi? Nu, nu înseamnă acest lucru. În întrebarea 4, Dell a fost împotriva Google, iar Google a fost preferat. Astfel, știm că:

Microsoft > Google > Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Dar, rețineți că am eliminat Samsung. Samsung este o problemă. Este posibil să fie între Microsoft și Google. S-ar putea să fie între Google și Dell. Sau, poate fi mai puțin decât Dell. Nu avem cum să ne dăm seama! Putem bănui că are aceeași atractivitate ca și Dell. Am desenat Samsung cu albastru, deoarece, deși presupunerea nu este prostească, este, totuși, o presupunere nu foarte educată:

Microsoft > Google > Samsung = Dell > Apple, Intel, Sony, Yahoo > Nokia > IBM

O problemă mai dificilă este pusă de datele respondentului 13. Ea a ales Apple de două ori ca fiind cel mai bun, Samsung de două ori, iar Google și IBM câte o dată fiecare. Care este preferatul ei? Aici lucrurile devin cu adevărat urâte. Datele arată că:

  • Apple > Google pe locul 1 (Întrebarea 1)
  • Apple > IBM (Întrebarea 1)
  • IBM > Google (Întrebarea 4)
  • Google > Samsung (Întrebarea 5)
  • Samsung > Apple (Întrebarea 6)
  • Samsung > IBM (Întrebarea 6)

Aceste date sunt contradictorii. Priviți primele trei puncte. Ele ne spun că Apple > IBM = Google. Dar, ultimele 3 ne spun că Google > Samsung > Apple = IBM.

Instinctul majorității oamenilor atunci când se confruntă cu astfel de date este de a spune că datele sunt proaste și de a le arunca la gunoi. Din păcate, nu este atât de simplu. Se pare că majoritatea dintre noi oferim date incoerente în sondaje. Ne lăsăm distrași și plictisiți, fiind mai puțin atenți decât ar trebui. Ne schimbăm părerile în timp ce gândim. Ceea ce este interesant la MaxDiff nu este faptul că duce la date inconsistente. Mai degrabă, este că ne permite să vedem că datele sunt contradictorii. Acesta este de fapt un lucru bun, deoarece, dacă am fi cerut în schimb, de exemplu, respondentului să clasifice datele, acestea ar fi conținut în continuare erori, dar nu le-am fi văzut niciodată, deoarece nu am fi avut posibilitatea de a vedea inconsecvențele.

Pentru a rezuma:

  • Calcularea scorurilor pentru fiecare respondent prin însumarea celor mai bune scoruri și scăderea celor mai slabe scoruri nu este validă.
  • Nu avem suficiente date pentru a obține o ordonare completă a alternativelor.
  • Repondenții furnizează date inconsecvente.

Din fericire, un pic de magie statistică ne poate ajuta cu aceste probleme.

Magia – analiza clasei latente

Problema respondenților care furnizează date inconsecvente nu este nouă. Ea a fost un domeniu activ de cercetare academică încă din anii 1930. Domeniul de cercetare care se ocupă de acest aspect este cunoscut sub numele de modele de utilitate aleatoare, iar dacă citiți această postare este posibil să fiți deja familiarizat cu această clasă de modele (de exemplu, logit multinomial, logit de clasă latentă, logit de parametri aleatori, sunt toate modele care rezolvă această problemă).

A doua parte a problemei, și anume faptul că avem date incomplete, se rezolvă prin împrumutul de date de la alți respondenți. În mod surprinzător pentru mine, chiar și atunci când există suficiente date pentru a calcula preferințele pentru fiecare respondent în parte, de obicei este totuși mai bine să se estimeze preferințele prin combinarea datelor lor cu cele ale unor respondenți similari. Cred că acest lucru se datorează faptului că atunci când analizăm datele fiecărui respondent în mod izolat, ne supra-ajustăm, nereușind să observăm că ceea ce părea a fi preferințe era de fapt zgomot.

Aceste două probleme sunt rezolvate împreună folosind analiza clasei latente. Varianta specială pe care o ilustrez mai jos este latent class rank-ordered logit cu legături. Acesta este un model exotic, dezvoltat special pentru analiza clasei latente. Există și alte modele de clasă latentă care pot fi utilizate. Nu am de gând să explic calculele matematice. În schimb, voi explica doar cum se citesc ieșirile.

Analiza clasei latente este ca analiza cluster. Introduceți o mulțime de date și îi spuneți câte clase (adică, clustere) doriți. Tabelul de mai jos prezintă rezultatele pentru cinci clase (adică, segmente). Rezultatele pentru fiecare clasă sunt prezentate în coloane. Dimensiunea clasei este indicată în partea de sus. Dedesubt se află probabilitatea %, cunoscută și sub numele de cota de preferințe (adică probabilitatea estimată ca o persoană din segment să prefere o alternativă din toate alternativele din studiu).

Clasa 1 este formată din persoane care au, în medie, ordinea preferințelor Samsung > Google > Microsoft > Sony > … . Aceasta reprezintă 21,4% din eșantion. Clasa 2 este formată din persoanele care au o preferință puternică pentru Apple. Clasa 3 este formată din persoane cărora le plac atât Apple, cât și Samsung. Persoanele care preferă Sony și Nokia apar în Clasa 4, dar nu au preferințe super-forte pentru nicio marcă. Clasa 5 preferă, de asemenea, Apple, apoi Microsoft.

Dacă vă uitați la coloana Total, veți vedea ceva care vă poate surprinde. Cota Google este de numai 12,8%. Este mai mică decât cea a Samsung. Acest lucru contrazice concluziile analizelor de numărare anterioare, care arătau că Google este a doua cea mai populară marcă pe baza numărului de ori în care a fost aleasă ca fiind cea mai bună, și la egalitate cu Apple odată ce au fost luate în considerare cele mai proaste scoruri. Cum se face că analiza clasei latente ne oferă o concluzie atât de diferită? Motivul este că analiza de numărare anterioară este fundamental eronată.

Cu o nouă analiză a rezultatelor clasei latente, putem vedea că Google are o cotă moderată în toate segmentele. În acest experiment, fiecare persoană a completat șase întrebări. Numărul de ori de câte ori au ales fiecare dintre mărci ca fiind cea mai bună în cadrul acestor întrebări este prezentat mai jos. Modul în care a fost creat designul experimental este că fiecare alternativă a fost prezentată doar de trei ori. Dacă vă uitați la coloana „3 ori” din tabelul de mai jos, se arată că 36% dintre persoane au ales Apple cel mai bine de 3 ori, 20% au ales Samsung de 3 ori, iar 12% au ales Google cel mai bine de 3 ori. Așadar, putem concluziona că Apple are o probabilitate de aproximativ 3 ori mai mare de a fi cel mai preferat în comparație cu Google. Acum, uitați-vă la coloanele O dată și de două ori. Google este marca cea mai probabilă de a fi aleasă o singură dată. Și, de asemenea, este și marca cea mai probabilă de a fi aleasă de două ori. Așadar, Google este cea mai populară marcă de rezervă. Acest lucru evidențiază de ce analizele brute de numărare pot fi atât de înșelătoare. Oamenilor li se cere să facă 6 alegeri, dar designul experimental le arată marca lor cea mai preferată doar de 3 ori, iar analiza de numărare suprainfluențează astfel performanța mărcilor de a doua și a treia preferință.

În soluția cu cinci clase de mai sus, doar Apple domină în mod clar orice segment. Aceasta nu este o perspectivă. Mai degrabă, este o consecință a numărului de clase care au fost selectate. Dacă selectăm mai multe clase, vom obține mai multe segmente care conțin diferențe mai accentuate de preferințe. Tabelul de mai jos prezintă 10 clase. Am putea adăuga cu ușurință mai multe. Câte mai multe? Există câteva lucruri de compromis:

  1. Cât de bine se potrivește modelul nostru la date. O măsură a acestui lucru este BIC, care este afișat în partea de jos a tabelelor cu clase latente. Toate celelalte fiind egale, cu cât BIC este mai mic, cu atât modelul este mai bun. Pe acest criteriu, modelul cu 10 clase este superior. Cu toate acestea, toate celelalte condiții sunt rareori egale, așa că tratați BIC doar ca pe un ghid aproximativ care este doar uneori util.
  2. Stabilitatea coloanei totale. Dacă comparați soluția cu 10 și cea cu 5 clase, puteți vedea că acestea sunt foarte corelate. Cu toate acestea, soluția cu 10 clase este cea mai precisă estimare (pentru cititorii mai tehnici: deoarece modelul este neliniar, coloana totală, care este o sumă ponderată a celorlalte coloane, nu este valabilă atunci când numărul de clase este specificat în mod eronat).
  3. Dacă mărcile de interes pentru partea interesată obțin un scor de preferință ridicat în oricare dintre segmente. De exemplu, în tabelul de mai jos, există mult interes pentru Apple, Samsung, Sony și Google, dar dacă ați face studiul pentru o altă marcă, probabil că ați dori să măriți numărul de clase pentru a găsi un segment care să rezoneze cu clientul. Cu condiția ca BIC să continue să scadă, nu este nimic dubios în acest sens.
  4. Complexitatea soluției pentru părțile interesate. Cu cât mai puține clase, cu atât mai inteligibilă.

Graficul gogoașă de mai jos afișează cotele de preferință pentru soluția cu 10 clase (de ex, coloana sa Total).

Profilarea claselor latente

După ce am creat clasele noastre latente, alocăm fiecare persoană unei clase și apoi profilăm clasele prin crearea de tabele. Tabelul de mai jos, de exemplu, prezintă soluția noastră cu 5 clase în funcție de proprietatea produsului. Dacă comparați acest tabel cu soluția clasei latente în sine, veți vedea că proprietatea produselor se aliniază cu preferințele afișate în întrebările MaxDiff.

Părți de preferințe la nivel de respondent

Câteodată este bine să avem părți de preferințe pentru fiecare respondent din sondaj. De obicei, acestea sunt utilizate ca intrări în analize ulterioare (de exemplu, studii de segmentare care utilizează mai multe surse de date). Odată ce ați estimat un model de clasă latentă, acestea sunt ușor de calculat (sunt o ieșire standard). Cu toate acestea, ele nu sunt foarte precise. După cum am discutat mai sus, nu există suficiente informații pentru a calcula ordinea reală a preferințelor unei persoane, astfel încât, în mod inevitabil, orice calcul al cotelor de preferințe ale acesteia se bazează în mare măsură pe datele împărtășite de alți respondenți, care, la rândul lor, sunt influențate de cât de bine explică datele modelul clasei latente. Tabelul de mai jos prezintă cotele de preferință la nivel de respondent din modelul cu 5 clase.

Tabelul de mai jos prezintă media procentelor de probabilitate calculate la pentru fiecare respondent. Acestea sunt foarte asemănătoare cu rezultatele din coloana totală a modelului cu clase latente, dar nu chiar la fel (din nou, dacă sunteți super-tehnicieni: acest lucru se datorează neliniarității calculelor; o diferență mare între acestea ar fi un indiciu că modelul este slab). Coloana Total este mai precisă decât coloana Probabilitate medie % prezentată în acest tabel.

Am trasat mai jos histogramele distribuțiilor de preferințe pentru fiecare dintre mărci. Aceste distribuții se bazează pe modelul nostru cu 5 clase. Astfel, ele nu sunt în măsură să arate o variație mai mare a preferințelor decât cea evidențiată în analiza anterioară. Dacă am fi folosit mai multe clase, am fi obținut o variație mai mare. Cu toate acestea, există modalități mai bune de a obține acest rezultat.

Tabloul de mai jos prezintă distribuțiile cotelor de preferință dintr-un model și mai complex, cunoscut sub numele de model cu coeficienți variați amplificați. (Nu veți găsi acest model în literatura academică; noi l-am inventat, dar codul este open-source dacă doriți să săpați în el). Aceasta arată distribuții mai bune pentru fiecare dintre mărci (mai largi = mai bune). O postare mai tehnică pe blog care discută aceste modele mai complexe poate fi găsită aici.

Tabelul de mai jos prezintă cotele preferențiale pentru fiecare respondent din acest model. Aruncați o privire la respondenții 1 și 13, pe care i-am examinat la începutul postării. Preferința clară a primului respondent pentru Microsoft și Google și aversiunea față de IBM, Nokia și Yahoo transpare, chiar dacă o parte din ordine s-a schimbat ușor. Selecțiile contradictorii ale respondentului 13 au fost rezolvate în favoarea Apple, pe care a selectat-o de două ori ca fiind cea mai preferată.

Din aceste cote la nivel de respondent, probabilitatea medie % rezultă așa cum se arată în tabelul de mai jos, care, din nou, se potrivește destul de bine cu rezultatul analizei clasei latente.

Simulare de preferințe

Câteodată, în aplicațiile de marketing ale MaxDiff, oamenii aleg între produse alternative. Atunci când se fac astfel de studii, poate fi interesant să se înțeleagă cotele de preferințe după ce au fost eliminate unele dintre alternative. Acest lucru este super-simplu. Tot ce trebuie să facem este să ștergem coloanele alternativelor pe care dorim să le excludem și apoi să refacem cifrele astfel încât să se adune la 100%. Mai jos, am recalculat acțiunile preferențiale cu Samsung și Apple eliminate.

Summary

Metodele simple de analiză nu sunt valabile pentru MaxDiff. Ele conduc la concluzii extrem de înșelătoare. Aplicarea unor tehnici mai avansate, cum ar fi analiza clasei latente, va oferi, în schimb, rezultate semnificativ mai semnificative.

Dacă dați clic aici, puteți să vă conectați la Displayr și să vedeți toate analizele care au fost folosite în această postare. Faceți clic aici pentru o postare despre cum să faceți acest lucru singur în Displayr și aici pentru una despre cum să o faceți în Q.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.