GeeksforGeeks

Prerequisito – Medidas de Distância em Data Mining

Em Data Mining, medida de similaridade refere-se à distância com dimensões representando características do objeto de dados, em um conjunto de dados. Se essa distância for menor, haverá um alto grau de similaridade, mas quando a distância for grande, haverá um baixo grau de similaridade.

Algumas das medidas de similaridade populares são –

  1. Euclidean Distance.
  2. Distância Manhattan.
  3. Semelhança Jaccard.
  4. Distância Minkowski.
  5. Semelhança Cosine.

Semelhança Cosine é uma métrica, útil para determinar, o quão semelhantes os objetos de dados são, independentemente do seu tamanho. Podemos medir a similaridade entre duas frases em Python usando Semelhança Cosina. Na semelhança cosseno, os objetos de dados em um conjunto de dados são tratados como um vetor. A fórmula para encontrar a semelhança cosseno entre dois vetores é –

Cos(x, y) = x . y / ||x|| * ||y||

where,

  • x . y = produto (ponto) dos vetores ‘x’ e ‘y’.
  • |||x|||| e |||y||| = comprimento dos dois vectores ‘x’ e ‘y’.
  • |||x|||| |||y|||| = produto cruzado dos dois vectores ‘x’ e ‘y’.

Exemplo :
Cosine Similarity.

O vector ‘x’ tem valores, x = { 3, 2, 0, 5 }
O vector ‘y’ tem valores, y = { 1, 0, 0, 0 }

A fórmula para calcular a semelhança cosseno é : Cos(x, y) = x . y / |||x||| * |||y||

x . y = 3*1 + 2*0 + 0*0 + 5*0 = 3||x|| = √ (3)^2 + (2)^2 + (0)^2 + (5)^2 = 6.16||y|| = √ (1)^2 + (0)^2 + (0)^2 + (0)^2 = 1∴ Cos(x, y) = 3 / (6.16 * 1) = 0.49 

A disparidade entre os dois vectores ‘x’ e ‘y’ é dada por –

∴ Dis(x, y) = 1 - Cos(x, y) = 1 - 0.49 = 0.51
  • A semelhança cosseno entre dois vectores é medida em ‘θ’.
  • Se θ = 0°, os vetores ‘x’ e ‘y’ se sobrepõem, provando assim que são semelhantes.
  • Se θ = 90°, os vetores ‘x’ e ‘y’ são diferentes.

Similaridade cossena entre dois vetores

Vantagens :

  • A semelhança cossena é benéfica porque mesmo que os dois objetos de dados similares estejam muito afastados pela distância euclidiana devido ao tamanho, eles ainda poderiam ter um ângulo menor entre eles. Quanto menor o ângulo, maior a semelhança.
  • Quando plotado num espaço multidimensional, a semelhança cosseno captura a orientação (o ângulo) dos objetos de dados e não a magnitude.
Etiquetas de artigos :

SGBD

Etiquetas de prática :

Deixe uma resposta

O seu endereço de email não será publicado.