Come funziona l’analisi MaxDiff (Semplice, ma non per principianti)

Questo post spiega i meccanismi di base di come le preferenze possono essere misurate usando i dati raccolti in un esperimento MaxDiff. Prima di leggere questo post, assicuratevi di aver letto A beginner’s guide to MaxDiff. Ho lavorato duro per rendere questo post il più semplice possibile, ma non è una guida per principianti. MaxDiff non è per principianti. In questo post comincerò guardando i modi più semplici di analizzare MaxDiff, e lavoreremo fino a qualcosa di più rigoroso.

Conteggio dei migliori punteggi (super semplice, super rischioso)

Il modo più semplice di analizzare i dati di MaxDiff è contare quante persone hanno selezionato ogni alternativa come la più preferita. La tabella qui sotto mostra i punteggi. Apple è la migliore. Google è il secondo migliore.

Questo ignora i nostri dati su quale alternativa è peggiore. Dovremmo almeno guardare quello. Ci mostra qualcosa di interessante. Mentre Apple è chiaramente la più popolare, ha la sua giusta quota di detrattori. Quindi, concentrarsi solo sui suoi migliori punteggi non racconta la vera storia.

La prossima tabella mostra le differenze. Ora mostra che Apple e Google sono quasi alla pari nelle preferenze. Ma sappiamo, guardando solo i migliori punteggi, che questo non è corretto!

Cosa sta succedendo qui? In primo luogo, Apple è il marchio più popolare. Quest’ultima tabella è semplicemente fuorviante. In secondo luogo, e meno ovviamente, la ragione per cui l’ultima tabella ci racconta una storia diversa è che Apple è un marchio che divide. Ha molti aderenti e un discreto numero di detrattori. Questo significa che dobbiamo concentrarci sulla misurazione delle preferenze a livello di intervistati e sul raggruppamento di intervistati simili (cioè la segmentazione). Come vedremo presto, c’è un terzo problema in agguato in questa analisi semplicistica, e lo troveremo solo aumentando il calore delle nostre statistiche.

Guardando i punteggi migliori e peggiori per intervistato

La tabella qui sotto mostra il disegno sperimentale MaxDiff utilizzato per raccogliere i dati. Le scelte del primo intervistato nel set di dati sono mostrate per colore. Il blu mostra quale alternativa è stata scelta come migliore. Il rosso la peggiore. La domanda a cui stiamo cercando di rispondere è: qual è l’ordine di preferenza degli intervistati tra i 10 marchi tecnologici?

La soluzione più semplice è quella di contare il numero di volte che ogni opzione viene scelta, dando un punteggio di 1 per ogni volta che viene scelta come migliore e -1 per ogni volta che viene scelta come peggiore. Questo porta ai seguenti punteggi, e all’ordinamento delle marche:

Microsoft 3 > Google 1 = Samung 1 = Dell 1 > Apple = Intel = Sony > Yahoo -1 > Nokia -2 > IBM -3

Questo approccio è molto semplice, e lontano dalla scienza. Guardate Yahoo. Sì, è stato scelto come peggiore una volta, e la nostra analisi di conteggio suggerisce che è il terzo marchio peggiore, meno attraente per l’intervistato di ciascuno di Apple, Intel e Sony. Tuttavia, guardate più attentamente la domanda 5. Yahoo è stato confrontato con Microsoft, Google, Samsung e Dell. Questi sono i marchi che l’intervistato ha scelto come preferiti nell’esperimento, e quindi i dati suggeriscono che sono tutti migliori di Apple, Intel e Sony. Cioè, non ci sono prove che Yahoo sia effettivamente peggiore di Apple, Intel e Sony. L’analisi del conteggio è semplice ma sbagliata.

Un’analisi più rigorosa

Rendiamo l’analisi più rigorosa tenendo conto di quale alternativa è stata confrontata con quali altre. Questo fa la differenza perché non tutte le combinazioni di alternative possono essere testate, perché porterebbe ad un’enorme fatica. Abbiamo già concluso che Yahoo non è diverso da Apple, Intel e Sony, il che porta a:

Microsoft > Google = Samsung = Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Quale marchio è il secondo preferito? Ognuno di Samsung, Google e Dell è stato scelto come migliore una volta. Questo significa che sono tutti al secondo posto? No, non è così. Nella domanda 4, Dell era contro Google, e Google è stato preferito. Così, sappiamo che:

Microsoft > Google > Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Ma, nota che ho rimosso Samsung. Samsung è un problema. Può essere tra Microsoft e Google. Può essere tra Google e Dell. Oppure, potrebbe essere meno di Dell. Non c’è modo di dirlo! Possiamo indovinare che ha lo stesso appeal di Dell. Ho disegnato Samsung in blu, poiché, anche se l’ipotesi non è sciocca, è comunque un’ipotesi non super istruita:

Microsoft > Google > Samsung = Dell > Apple, Intel, Sony, Yahoo > Nokia > IBM

Un problema più difficile è posto dai dati dell’intervistato 13. Ha scelto Apple due volte come migliore, Samsung due volte, e Google e IBM una volta ciascuno. Qual è il suo preferito? Qui le cose si mettono davvero male. I dati mostrano che:

  • Apple > Google in 1 posto (Domanda 1)
  • Apple > IBM (Domanda 1)
  • IBM > Google (Domanda 4)
  • Google > Samsung (Domanda 5)
  • Samsung > Apple (Domanda 6)
  • Samsung > IBM (Domanda 6)

Questi dati sono contraddittori. Guardate i primi tre punti. Ci dicono che Apple > IBM = Google. Ma, gli ultimi 3 ci dicono che Google > Samsung > Apple = IBM.

L’istinto della maggior parte delle persone di fronte a dati come questi è di dire che i dati sono cattivi e buttarli via. Sfortunatamente, non è così semplice. Si scopre che la maggior parte di noi fornisce dati incoerenti nei sondaggi. Ci distraiamo e ci annoiamo, facendo meno attenzione di quanto dovremmo. Cambiamo idea mentre pensiamo. La cosa interessante di MaxDiff non è che porta a dati incoerenti. Piuttosto, è che ci permette di vedere che i dati sono contraddittori. Questa è in realtà una buona cosa perché, se avessimo invece, per esempio, chiesto all’intervistato di classificare i dati, questi avrebbero comunque contenuto errori, ma non li avremmo mai visti perché non avremmo avuto la possibilità di vedere le incongruenze.

Per riassumere:

  • Calcolare i punteggi per ogni intervistato sommando i punteggi migliori e sottraendo quelli peggiori non è valido.
  • Non abbiamo abbastanza dati per ottenere un ordine completo delle alternative.
  • Gli intervistati forniscono dati incoerenti.

Fortunatamente, un po’ di magia statistica può aiutarci con questi problemi.

La magia – analisi delle classi latenti

Il problema degli intervistati che forniscono dati incoerenti non è nuovo. È stata un’area attiva di ricerca accademica fin dagli anni ’30. L’area di ricerca che si occupa di questo è nota come modelli di utilità casuale, e se stai leggendo questo post potresti già avere familiarità con questa classe di modelli (ad esempio, logit multinomiale, logit di classe latente, logit a parametri casuali, sono tutti modelli che risolvono questo problema).

La seconda parte del problema, che è che abbiamo dati incompleti, viene risolta prendendo in prestito i dati da altri intervistati. Sorprendentemente per me, anche quando ci sono dati sufficienti per calcolare le preferenze per ogni intervistato separatamente, di solito è ancora meglio stimare le preferenze combinando i loro dati con quelli di intervistati simili. Penso che questo sia dovuto al fatto che quando analizziamo i dati di ciascun intervistato in modo isolato, ci adattiamo troppo, non riuscendo a individuare che quelle che sembravano preferenze erano in realtà rumore.

Questi due problemi vengono risolti congiuntamente utilizzando l’analisi delle classi latenti. La variante speciale che illustro qui di seguito è il logit ordinato per classi latenti con legami. È un modello esotico, sviluppato appositamente per l’analisi delle classi latenti. Ci sono altri modelli di classe latente che possono essere utilizzati. Non ho intenzione di spiegare la matematica. Invece, spiegherò solo come leggere gli output.

L’analisi delle classi latenti è come la cluster analysis. Si inseriscono un sacco di dati e si dice quante classi (cioè, cluster) si vogliono. La tabella qui sotto mostra i risultati per cinque classi (cioè segmenti). I risultati per ogni classe sono mostrati nelle colonne. La dimensione della classe è mostrata in alto. Sotto c’è la % di probabilità, nota anche come quota di preferenza (cioè, la probabilità stimata che una persona nel segmento preferisca un’alternativa tra tutte le alternative nello studio).

La classe 1 consiste di persone che hanno, in media, l’ordine di preferenza di Samsung > Google > Microsoft > Sony > … . È il 21,4% del campione. La classe 2 consiste di persone con una forte preferenza per Apple. La classe 3 è composta da persone a cui piacciono sia Apple che Samsung. Le persone che preferiscono Sony e Nokia appaiono nella classe 4, ma non hanno preferenze super-forti per nessuna marca. La classe 5 è anche preferendo Apple, poi Microsoft.

Se guardate la colonna Totale vedrete qualcosa che potrebbe sorprendervi. La quota di Google è solo del 12,8%. È meno di Samsung. Questo contraddice le conclusioni delle precedenti analisi di conteggio che mostravano Google come il secondo marchio più popolare in base al numero di volte in cui è stato scelto come migliore, e a pari merito con Apple una volta che i punteggi peggiori sono stati presi in considerazione. Come mai l’analisi della classe latente ci dà una conclusione così diversa? La ragione è che l’analisi di conteggio precedente è fondamentalmente difettosa.

Guardando di nuovo i risultati della classe latente, possiamo vedere che Google ha una quota moderata in tutti i segmenti. In questo esperimento, ogni persona ha completato sei domande. Il numero di volte che hanno scelto ciascuno dei marchi come migliore attraverso queste domande è mostrato di seguito. Il modo in cui il disegno sperimentale è stato creato è che ogni alternativa è stata mostrata solo tre volte. Se si guarda la colonna delle 3 volte nella tabella qui sotto, si vede che il 36% delle persone ha scelto Apple come migliore 3 volte, il 20% ha scelto Samsung 3 volte, e il 12% ha scelto Google come migliore 3 volte. Quindi, possiamo concludere che Apple ha circa 3 volte più probabilità di essere preferita rispetto a Google. Ora guardate le colonne Una volta e Due volte. Google è il marchio più probabile ad essere scelto una volta. Ed è anche il marchio più probabile ad essere scelto due volte. Quindi, Google è il marchio di ripiego più popolare. Questo evidenzia perché le analisi di conteggio grezze possono essere così fuorvianti. Alle persone viene chiesto di fare 6 scelte, ma il disegno sperimentale mostra loro solo il loro marchio preferito 3 volte, e l’analisi di conteggio gonfia eccessivamente la performance del secondo e terzo marchio preferito.

Nella soluzione a cinque classi sopra, solo Apple domina chiaramente qualsiasi segmento. Questa non è un’intuizione. Piuttosto, è una conseguenza del numero di classi che sono state selezionate. Se selezioniamo più classi, otterremo più segmenti contenenti differenze di preferenza più nette. La tabella qui sotto mostra 10 classi. Potremmo facilmente aggiungerne altre. Quante altre? Ci sono alcune cose da compromettere:

  1. Quanto bene il nostro modello si adatta ai dati. Una misura di questo è il BIC, che è mostrato in fondo alle tabelle delle classi latenti. A parità di condizioni, più basso è il BIC, migliore è il modello. Su questo criterio, il modello a 10 classi è superiore. Tuttavia, tutto il resto è raramente uguale, quindi trattate il BIC come una guida approssimativa che è solo a volte utile.
  2. La stabilità della colonna totale. Se si confronta la soluzione di 10 e 5 classi, si può vedere che sono altamente correlate. Tuttavia, è la soluzione a 10 classi che è la stima più accurata (per i lettori più tecnici: poiché il modello non è lineare, la colonna totale, che è una somma ponderata delle altre colonne, non è valida quando il numero di classi non è specificato correttamente).
  3. Se le marche che interessano allo stakeholder ottengono un punteggio di preferenza elevato in uno dei segmenti. Per esempio, nella tabella qui sotto, c’è molto interesse per Apple, Samsung, Sony e Google, ma se si stesse facendo lo studio per un altro dei marchi, probabilmente si vorrebbe aumentare il numero di classi per trovare un segmento che risuoni con il cliente. A condizione che il BIC continui a diminuire, non c’è niente di losco in questo.
  4. La complessità della soluzione per le parti interessate. Meno classi ci sono, più è comprensibile.

Il grafico a ciambella qui sotto mostra le quote di preferenza per la soluzione a 10 classi (cioè, la sua colonna Totale).

Profilare le classi latenti

Una volta create le nostre classi latenti, assegniamo ogni persona ad una classe e poi profiliamo le classi creando delle tabelle. La tabella qui sotto, per esempio, mostra la nostra soluzione a 5 classi per proprietà del prodotto. Se confronti questa tabella con la soluzione della classe latente stessa, vedrai che la proprietà del prodotto è in linea con le preferenze esposte nelle domande di MaxDiff.

Le quote di preferenza a livello di risposta

A volte è bello avere quote di preferenza per ogni intervistato nell’indagine. Tipicamente, sono usate come input in ulteriori analisi (per esempio, studi di segmentazione che utilizzano più fonti di dati). Una volta che avete stimato un modello di classe latente, queste sono facili da calcolare (sono un output standard). Tuttavia, non sono super-accurate. Come abbiamo discusso in precedenza, non ci sono informazioni sufficienti per calcolare l’effettivo ordine di preferenza di una persona, quindi inevitabilmente qualsiasi calcolo delle loro quote di preferenza si basa molto sui dati condivisi da altri intervistati, che a loro volta sono influenzati da quanto è buono il modello di classe latente nello spiegare i dati. La tabella seguente mostra le quote di preferenza a livello di intervistato dal modello a 5 classi.

La tabella seguente mostra la media delle percentuali di probabilità calcolate per ogni intervistato. Sono molto simili ai risultati nella colonna totale del modello a classi latenti, ma non proprio uguali (di nuovo, se siete super-tecnici: questo è dovuto alla non linearità nei calcoli; una grande differenza tra questi sarebbe un indizio che il modello è scarso). La colonna Totale è più accurata della colonna Probabilità media % mostrata in questa tabella.

Ho tracciato gli istogrammi delle distribuzioni di preferenze per ciascuna delle marche qui sotto. Queste distribuzioni sono basate sul nostro modello a 5 classi. Quindi, non sono in grado di mostrare più variazioni nelle preferenze di quelle rivelate nell’analisi precedente. Se usassimo più classi, otterremmo più variazione. Tuttavia, ci sono modi migliori per ottenere questo risultato.

La tabella sottostante mostra le distribuzioni delle quote di preferenza da un modello ancora più complesso, noto come modello a coefficienti variabili potenziati. (Non lo troverete nella letteratura accademica; l’abbiamo inventato noi, ma il codice è open-source se volete approfondire). Questo mostra distribuzioni migliori per ciascuna delle marche (più ampie = migliori). Un post più tecnico del blog che discute questi modelli più complessi può essere trovato qui.

La tabella qui sotto mostra le quote di preferenza per ogni intervistato da questo modello. Date un’occhiata agli intervistati 1 e 13, che abbiamo esaminato all’inizio del post. La chiara preferenza del primo intervistato per Microsoft e Google, e l’antipatia per IBM, Nokia, e Yahoo è evidente, anche se alcuni ordini si sono leggermente spostati. Le selezioni contraddittorie dell’intervistato 13 sono state risolte a favore di Apple, che ha selezionato due volte come il suo preferito.

Da queste quote a livello di intervistato, la probabilità media % risulta come mostrato nella tabella sottostante, che ancora una volta corrisponde abbastanza da vicino al risultato dell’analisi della classe latente.

Simulazione di preferenza

A volte nelle applicazioni di marketing di MaxDiff, le persone scelgono tra prodotti alternativi. Quando si fanno questi studi, può essere interessante capire le quote di preferenza dopo aver rimosso alcune delle alternative. Questo è super-semplice. Tutto quello che dobbiamo fare è cancellare le colonne delle alternative che vogliamo escludere, e poi ricomporre i numeri in modo che arrivino al 100%. Sotto, ho ricalcolato le quote di preferenza con Samsung e Apple rimosse.

Sommario

I metodi di analisi semplici non sono validi per MaxDiff. Portano a conclusioni grossolanamente fuorvianti. L’applicazione di tecniche più avanzate, come l’analisi delle classi latenti, darà invece risultati molto più significativi.

Se cliccate qui, potete accedere a Displayr e vedere tutte le analisi utilizzate in questo post. Cliccate qui per un post su come farlo da soli in Displayr, e qui per uno su come farlo in Q.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.