Requisito – Medidas de Distancia en Minería de Datos
En Minería de Datos, la medida de similitud se refiere a la distancia con las dimensiones que representan las características del objeto de datos, en un conjunto de datos. Si esta distancia es menor, habrá un alto grado de similitud, pero cuando la distancia es grande, habrá un bajo grado de similitud.
Algunas de las medidas de similitud populares son –
- Distancia Euclidiana.
- Distancia Manhattan.
- Similaridad Jaccard.
- Distancia Minkowski.
- Similaridad Coseno.
La similitud coseno es una métrica, útil para determinar, cuán similares son los objetos de datos independientemente de su tamaño. Podemos medir la similitud entre dos frases en Python utilizando la similitud del coseno. En la similitud del coseno, los objetos de datos en un conjunto de datos son tratados como un vector. La fórmula para encontrar la similitud coseno entre dos vectores es –
Cos(x, y) = x . y / ||x|| * ||y||
donde,
- x . y = producto (punto) de los vectores ‘x’ e ‘y’.
- ||x|| y ||y|| = longitud de los dos vectores ‘x’ e ‘y’.
- |x|| * ||y|| = producto cruzado de los dos vectores ‘x’ e ‘y’.
Ejemplo :
Considere un ejemplo para encontrar la similitud entre dos vectores – ‘x’ e ‘y’, utilizando la similitud del coseno.
El vector ‘x’ tiene valores, x = { 3, 2, 0, 5 }
El vector ‘y’ tiene valores, y = { 1, 0, 0, 0 }
La fórmula para calcular la similitud del coseno es : Cos(x, y) = x . y / ||x|| * ||y||
x . y = 3*1 + 2*0 + 0*0 + 5*0 = 3||x|| = √ (3)^2 + (2)^2 + (0)^2 + (5)^2 = 6.16||y|| = √ (1)^2 + (0)^2 + (0)^2 + (0)^2 = 1∴ Cos(x, y) = 3 / (6.16 * 1) = 0.49
La disimilitud entre los dos vectores ‘x’ e ‘y’ viene dada por –
∴ Dis(x, y) = 1 - Cos(x, y) = 1 - 0.49 = 0.51
- La similitud coseno entre dos vectores se mide en ‘θ’.
- Si θ = 0°, los vectores ‘x’ e ‘y’ se superponen, demostrando así que son similares.
- Si θ = 90°, los vectores ‘x’ e ‘y’ son disímiles.
Similaridad del coseno entre dos vectores
Ventajas :
- La similitud del coseno es beneficiosa porque aunque los dos objetos de datos similares estén muy alejados por la distancia euclidiana debido al tamaño, podrían tener un ángulo menor entre ellos. Más pequeño es el ángulo, mayor es la similitud.
- Cuando se traza en un espacio multidimensional, la similitud del coseno captura la orientación (el ángulo) de los objetos de datos y no la magnitud.