Prerequisito – Medidas de Distância em Data Mining
Em Data Mining, medida de similaridade refere-se à distância com dimensões representando características do objeto de dados, em um conjunto de dados. Se essa distância for menor, haverá um alto grau de similaridade, mas quando a distância for grande, haverá um baixo grau de similaridade.
Algumas das medidas de similaridade populares são –
- Euclidean Distance.
- Distância Manhattan.
- Semelhança Jaccard.
- Distância Minkowski.
- Semelhança Cosine.
Semelhança Cosine é uma métrica, útil para determinar, o quão semelhantes os objetos de dados são, independentemente do seu tamanho. Podemos medir a similaridade entre duas frases em Python usando Semelhança Cosina. Na semelhança cosseno, os objetos de dados em um conjunto de dados são tratados como um vetor. A fórmula para encontrar a semelhança cosseno entre dois vetores é –
Cos(x, y) = x . y / ||x|| * ||y||
where,
- x . y = produto (ponto) dos vetores ‘x’ e ‘y’.
- |||x|||| e |||y||| = comprimento dos dois vectores ‘x’ e ‘y’.
- |||x|||| |||y|||| = produto cruzado dos dois vectores ‘x’ e ‘y’.
Exemplo :
Cosine Similarity.
O vector ‘x’ tem valores, x = { 3, 2, 0, 5 }
O vector ‘y’ tem valores, y = { 1, 0, 0, 0 }
A fórmula para calcular a semelhança cosseno é : Cos(x, y) = x . y / |||x||| * |||y||
x . y = 3*1 + 2*0 + 0*0 + 5*0 = 3||x|| = √ (3)^2 + (2)^2 + (0)^2 + (5)^2 = 6.16||y|| = √ (1)^2 + (0)^2 + (0)^2 + (0)^2 = 1∴ Cos(x, y) = 3 / (6.16 * 1) = 0.49
A disparidade entre os dois vectores ‘x’ e ‘y’ é dada por –
∴ Dis(x, y) = 1 - Cos(x, y) = 1 - 0.49 = 0.51
- A semelhança cosseno entre dois vectores é medida em ‘θ’.
- Se θ = 0°, os vetores ‘x’ e ‘y’ se sobrepõem, provando assim que são semelhantes.
- Se θ = 90°, os vetores ‘x’ e ‘y’ são diferentes.
Similaridade cossena entre dois vetores
Vantagens :
- A semelhança cossena é benéfica porque mesmo que os dois objetos de dados similares estejam muito afastados pela distância euclidiana devido ao tamanho, eles ainda poderiam ter um ângulo menor entre eles. Quanto menor o ângulo, maior a semelhança.
- Quando plotado num espaço multidimensional, a semelhança cosseno captura a orientação (o ângulo) dos objetos de dados e não a magnitude.