Como funciona a Análise MaxDiff (Simples, mas não para Dummies)

Este post explica a mecânica básica de como as preferências podem ser medidas usando os dados coletados em um experimento MaxDiff. Antes de ler este post, certifique-se de ler primeiro Um guia para iniciantes no MaxDiff. Eu trabalhei duro para tornar este post o mais simples possível, mas ele não é um guia de um boneco. O MaxDiff não é para bonecos. Neste post vou começar olhando para as maneiras mais simples de analisar o MaxDiff, e trabalhar para algo mais rigoroso.

Contar as melhores pontuações (super-simples, super arriscado)

A maneira mais simples de analisar os dados do MaxDiff é contar quantas pessoas selecionaram cada alternativa como sendo as mais preferidas. A tabela abaixo mostra as pontuações. A Apple é a melhor. Google é o segundo melhor.

Isso ignora nossos dados sobre qual alternativa é a pior. Deveríamos ao menos olhar para isso. Ele nos mostra algo interessante. Embora a Apple seja claramente a mais popular, tem a sua quota-parte de detractores. Então, apenas focar nos seus melhores resultados não conta a verdadeira história.

A tabela seguinte mostra as diferenças. Ela agora mostra que a Apple e o Google estão quase empatados na preferência. Mas, nós sabemos, olhando apenas para as melhores notas, que isso não é correto!

O que está acontecendo aqui? Primeiro, a Apple é a marca mais popular. Esta última tabela é apenas enganosa. Segundo, e menos obviamente, a razão pela qual a última tabela nos conta uma história diferente é que a Apple é uma marca divisória. Ela tem muitos adeptos e um número razoável de detractores. Isto significa que precisamos de nos concentrar em medir as preferências ao nível do inquirido e agrupar inquiridos semelhantes (ou seja, segmentação). Como veremos em breve, há um terceiro problema à espreita nesta análise simplista, e só o encontraremos aumentando o calor em nossas estatísticas.

Looking at best and worst scores by respondent

A tabela abaixo mostra o design experimental do MaxDiff usado na coleta de dados. As escolhas do primeiro entrevistado no conjunto de dados são mostradas por cor. O azul mostra qual alternativa foi escolhida como a melhor. Vermelho para pior. A questão que estamos tentando responder é, qual é a ordem de preferência do respondente entre as 10 marcas tecnológicas?

A solução mais simples é contar o número de vezes que cada opção é escolhida, dando uma pontuação de 1 para cada vez que é escolhida como melhor e -1 para cada vez que é escolhida como pior. Isto leva às seguintes pontuações, e ordem de classificação, das marcas:

Microsoft 3 > Google 1 = Samung 1 = Dell 1 > Apple = Intel = Sony > Yahoo -1 > Nokia -2 > IBM -3

Esta abordagem é muito simples, e longe de ser científica. Veja o Yahoo. Sim, ela foi escolhida como a pior, e nossa análise de contagem sugere que é a terceira pior marca, menos atraente para o respondente do que cada uma das Apple, Intel e Sony. No entanto, veja com mais cuidado a Pergunta 5. O Yahoo foi comparado com a Microsoft, Google, Samsung e Dell. Estas são as marcas que o respondente escolheu como as mais preferidas na experiência e, portanto, os dados sugerem que são todas melhores do que a Apple, Intel e Sony. Ou seja, não há evidências de que o Yahoo seja realmente pior do que a Apple, Intel e Sony. A análise de contagem é simples mas errada.

Uma análise mais rigorosa

Fazemos a análise mais rigorosa, levando em conta qual alternativa foi comparada com quais outras. Isto faz a diferença porque nem todas as combinações de alternativas podem ser testadas, pois levaria a uma enorme fadiga. Já concluímos que o Yahoo não é diferente da Apple, Intel e Sony, o que leva a:

Microsoft > Google = Samsung = Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Qual é a segunda marca mais preferida? Cada uma das marcas Samsung, Google e Dell foi escolhida como a melhor uma vez. Isto significa que estão todas em segundo lugar? Não, não significa. Na pergunta 4, a Dell foi contra o Google, e o Google foi preferido. Assim, sabemos que:

Microsoft > Google > Dell > Apple = Intel = Sony = Yahoo > Nokia > IBM

Mas, note que eu removi o Samsung. A Samsung é um problema. Pode ser entre a Microsoft e o Google. Pode ser entre o Google e a Dell. Ou, pode ser menos que a Dell. Não há como saber! Podemos adivinhar que tem o mesmo apelo que o Dell. Eu desenhei a Samsung de azul, pois embora o palpite não seja bobo, é, no entanto, um palpite não-super-educado:

Microsoft > Google > Samsung = Dell > Apple, Intel, Sony, Yahoo > Nokia > IBM

Um problema mais difícil é colocado pelos dados do respondente 13. Ela escolheu a Apple duas vezes melhor, Samsung duas vezes, e Google e IBM uma vez cada. Qual é o seu favorito? Aqui ela fica muito feia. Os dados mostram isso:

  • Apple > Google em 1 lugar (Questão 1)
  • Apple > IBM (Questão 1)
  • IBM > Google (Questão 4)
  • Google > Samsung (Pergunta 5)
  • Samsung > Apple (Pergunta 6)
  • Samsung > IBM (Pergunta 6)

Estes dados são contraditórios. Olhe para os três primeiros pontos. Eles nos dizem que Apple > IBM = Google. Mas, os últimos 3 dizem-nos que Google > Samsung > Apple = IBM.

O instinto da maioria das pessoas quando confrontadas com dados como este é dizer que os dados são maus e deitá-los fora. Infelizmente, não é tão simples assim. Acontece que a maioria de nós dá dados inconsistentes em pesquisas. Ficamos distraídos e aborrecidos, tomando menos cuidado do que deveríamos. Mudamos de ideias como pensamos. O interessante sobre o MaxDiff não é que ele leva a dados inconsistentes. Pelo contrário, é que nos permite ver que os dados são contraditórios. Isto é realmente uma coisa boa porque, se tivéssemos, por exemplo, pedido ao respondente para classificar os dados, eles ainda conteriam erros, mas nunca os teríamos visto pois não teríamos oportunidade de ver as inconsistências.

Para resumir:

  • Computar as pontuações de cada respondente somando as melhores pontuações e subtraindo as piores pontuações não é válido.
  • Não temos dados suficientes para obter uma ordenação completa das alternativas.
  • Os respondentes fornecem dados inconsistentes.

Felizmente, um pouco de feitiçaria estatística pode ajudar-nos com estes problemas.

A mágica – análise da classe latente

O problema de os respondentes fornecerem dados inconsistentes não é novo. Tem sido uma área ativa de pesquisa acadêmica desde a década de 1930. A área de pesquisa que lida com isso é conhecida como modelos de utilidade aleatórios, e se você estiver lendo este post você já pode estar familiarizado com esta classe de modelos (por exemplo, multinomial logit, latent class logit, random parameters logit, são todos modelos que resolvem este problema).

A segunda parte do problema, que é que temos dados incompletos, é resolvido com o empréstimo de dados de outros respondentes. Surpreendentemente para mim, mesmo quando há dados suficientes para computar as preferências de cada respondente separadamente, geralmente ainda é melhor estimar a preferência pela combinação dos seus dados com os de respondentes similares. Acho que isso ocorre porque, quando analisamos os dados de cada questionado isoladamente, nos ajustamos demais, deixando de perceber que o que parecia ser preferências era realmente ruído.

Esses dois problemas são resolvidos em conjunto usando análise de classe latente. A variante especial que eu ilustro abaixo é a classe latente ordenada por logit com laços. É um modelo exótico, especialmente desenvolvido para a análise de classes latentes. Existem outros modelos de classes latentes que podem ser usados. Eu não vou explicar as matemáticas. Em vez disso, vou apenas explicar como ler as saídas.

A análise de classes latentes é como a análise de clusters. Você coloca um monte de dados, e diz quantas classes (ou seja, clusters) você quer. A tabela abaixo mostra os resultados para cinco classes (ou seja, segmentos). Os resultados para cada classe são mostrados nas colunas. A dimensão da classe é mostrada no topo. Abaixo está a Probability %, também conhecida como preference share (ou seja, a probabilidade estimada de uma pessoa no segmento preferir uma alternativa de todas as alternativas do estudo).

Class 1 consiste em pessoas que têm, em média, a ordem de preferência da Samsung > Google > Microsoft > Sony > … . É 21,4% da amostra. A classe 2 consiste em pessoas com uma forte preferência pela Apple. A classe 3 é composta por pessoas que gostam tanto da Apple como da Samsung. As pessoas que preferem Sony e Nokia aparecem na Classe 4, mas não têm preferências super fortes por nenhuma marca. A Classe 5 também prefere Apple, depois Microsoft.

Se você olhar para a coluna Total você verá algo que pode surpreendê-lo. A quota do Google é de apenas 12,8%. É menos do que a Samsung. Isto contradiz as conclusões das análises de contagem anteriores que mostraram o Google como a segunda marca mais popular com base no número de vezes em que foi escolhida como a melhor, e o “pescoço e pescoço” com a Apple uma vez que as piores pontuações foram contabilizadas. Como é que a análise de classe latente nos dá uma conclusão tão diferente? A razão é que a análise de contagem anterior é fundamentalmente defeituosa.

Olhando novamente para os resultados da classe latente, podemos ver que o Google tem uma quota moderada em todos os segmentos. Nesta experiência, cada pessoa completou seis perguntas. O número de vezes que escolheram cada uma das marcas como a melhor entre essas questões é mostrado abaixo. A forma como o desenho experimental foi criado é que cada alternativa foi mostrada apenas três vezes. Se você olhar para a coluna 3 vezes na tabela abaixo, isso mostra que 36% das pessoas escolheram a Apple melhor 3 vezes, 20% escolheram a Samsung 3 vezes, e 12% escolheram o Google melhor 3 vezes. Portanto, podemos concluir que a Apple é cerca de 3 vezes a mais preferida em comparação com o Google. Agora olhe para as colunas Uma e Duas Vezes. O Google é a marca mais provável de ser escolhida uma vez. E é também a marca mais provável de ser escolhida duas vezes. Portanto, o Google é a marca de recurso mais popular. Isto destaca a razão pela qual as análises de contagem bruta podem ser tão enganadoras. As pessoas são convidadas a fazer 6 escolhas, mas o desenho experimental apenas lhes mostra a sua marca preferida 3 vezes, e a análise de contagem influi excessivamente no desempenho das marcas de segunda e terceira marcas.

Na solução de cinco classes acima, apenas a Apple domina claramente qualquer segmento. Isto não é um insight. Pelo contrário, é uma consequência do número de classes que foram seleccionadas. Se selecionarmos mais classes, teremos mais segmentos contendo diferenças mais acentuadas na preferência. A tabela abaixo mostra 10 classes. Poderíamos facilmente adicionar mais. Quantas mais? Há algumas coisas para trocar:

  1. Quão bem o nosso modelo se encaixa nos dados. Uma medida disso é o BIC, que é mostrado na parte inferior das tabelas de classes latentes. Tudo mais sendo igual, quanto menor o BIC, melhor o modelo. Neste critério, o modelo de 10 classes é superior. Entretanto, tudo o resto raramente é igual, então trate o BIC como apenas um guia aproximado que às vezes só é útil.
  2. A estabilidade da coluna total. Se você comparar a solução de 10 e 5 classes, você pode ver que elas são altamente correlacionadas. Entretanto, é a solução de 10 classes que é a estimativa mais precisa (para os leitores mais técnicos: como o modelo é não-linear, a coluna total, que é uma soma ponderada das outras colunas, é inválida quando o número de classes é mal especificado).
  3. Se as marcas de interesse para o interessado obtiverem uma pontuação de preferência alta em qualquer um dos segmentos. Por exemplo, na tabela abaixo, há muito interesse na Apple, Samsung, Sony e Google, mas se você estivesse fazendo o estudo para outra das marcas, você provavelmente gostaria de aumentar o número de classes para encontrar um segmento que ressoará com o cliente. Desde que a BIC continue diminuindo, não há nada de duvidoso nisso.
  4. A complexidade da solução para as partes interessadas. Quanto menos classes, mais inteligível.

O gráfico de donuts abaixo mostra as ações preferenciais para a solução de 10 classes (ou seja sua coluna Total).

Perfil de classes latentes

Após termos criado nossas classes latentes, alocamos cada pessoa a uma classe e depois fazemos o perfil das classes criando tabelas. A tabela abaixo, por exemplo, mostra a nossa solução de 5 classes por propriedade de produto. Se você comparar esta tabela com a própria solução de classe latente, você verá que a propriedade do produto se alinha com as preferências exibidas nas perguntas do MaxDiff.

Partes de preferência de nível de resposta

Algumas vezes é bom ter compartilhamento de preferências para cada respondente na pesquisa. Normalmente, elas são usadas como inputs para análises posteriores (por exemplo, estudos de segmentação usando múltiplas fontes de dados). Uma vez estimado um modelo de classe latente, estes são fáceis de calcular (são um resultado padrão). No entanto, não são super-acurados. Como discutimos acima, não há informação suficiente para calcular a ordem de preferência real de uma pessoa, portanto, inevitavelmente, qualquer cálculo de suas ações preferenciais depende muito dos dados compartilhados de outros respondentes, o que, por sua vez, é influenciado pelo quão bom o modelo de classe latente é para explicar os dados. A tabela abaixo mostra as quotas de preferência de nível de resposta do modelo de 5 classes.

A tabela abaixo mostra a média das percentagens de probabilidade calculadas para cada respondente. Elas são muito semelhantes aos resultados na coluna total do modelo de classe latente, mas não são exatamente as mesmas (novamente, se você for supertécnico: isso se deve à não linearidade nos cálculos; uma grande diferença entre elas seria uma pista de que o modelo é pobre). A coluna Total é mais precisa que a coluna Probabilidade Média % mostrada nesta tabela.

I traçou os histogramas das distribuições de preferências para cada uma das marcas abaixo. Estas distribuições são baseadas no nosso modelo de 5 classes. Assim, elas são incapazes de mostrar mais variações nas preferências do que foram reveladas na análise anterior. Se utilizássemos mais classes, teríamos mais variação. No entanto, existem melhores formas de alcançar este resultado.

A tabela abaixo mostra as distribuições de preferências de um modelo ainda mais complexo, conhecido como modelo de coeficientes de variação impulsionados. (Você não encontrará isto na literatura acadêmica; nós o inventamos, mas o código é de código aberto se você quiser cavar dentro). Isto mostra melhores distribuições para cada uma das marcas (mais amplo = melhor). Um post de blog mais técnico que discute esses modelos mais complexos pode ser encontrado aqui.

A tabela abaixo mostra as ações preferenciais para cada respondente deste modelo. Dê uma olhada nos respondentes 1 e 13, que examinamos no início do post. A clara preferência do primeiro respondente pela Microsoft e Google, e o desagrado pela IBM, Nokia e Yahoo mostra através, apesar de algumas das encomendas terem mudado ligeiramente. As seleções contraditórias do entrevistado 13 foram resolvidas a favor da Apple, que ele selecionou duas vezes como a mais preferida.

Destas ações de nível de resposta, a Média de Probabilidade % funciona como mostrado na tabela abaixo, que mais uma vez corresponde à saída da análise de classe latente bastante próxima.

Simulação de referência

Algumas vezes em aplicações de marketing do MaxDiff, as pessoas escolhem entre produtos alternativos. Ao fazer tais estudos, pode ser interessante entender as ações preferenciais depois de ter removido algumas das alternativas. Isto é super-simples. Tudo o que temos que fazer é apagar as colunas das alternativas que queremos excluir, e depois basear novamente os números para que eles somem até 100%. Abaixo, eu recomputei as ações preferenciais com Samsung e Apple removidas.

Summary

Métodos simples de análise são inválidos para o MaxDiff. Eles levam a conclusões grosseiramente enganosas. A aplicação de técnicas mais avançadas, como a análise de classes latentes, por outro lado, dará resultados significativamente mais significativos.

Se você clicar aqui, você pode fazer login no Displayr e ver todas as análises que foram usadas neste post. Clique aqui para um post sobre como fazer isso você mesmo no Displayr, e aqui para um post sobre como fazer isso no Q.

Deixe uma resposta

O seu endereço de email não será publicado.