Precondiție – Măsuri de distanță în Data Mining
În Data Mining, măsura de similaritate se referă la distanța cu dimensiuni care reprezintă caracteristici ale obiectului de date, într-un set de date. Dacă această distanță este mai mică, va exista un grad ridicat de similaritate, dar când distanța este mare, va exista un grad scăzut de similaritate.
Câteva dintre măsurile de similaritate populare sunt –
- Distanța euclidiană.
- Distanța Manhattan.
- Similitudine Jaccard.
- Distanța Minkowski.
- Similitudine Cosinus.
Similitudinea Cosinus este o metrică, utilă pentru a determina, cât de asemănătoare sunt obiectele de date indiferent de mărimea lor. Putem măsura similaritatea dintre două propoziții în Python folosind Cosine Similarity. În similitudinea cosinusului, obiectele de date dintr-un set de date sunt tratate ca un vector. Formula pentru a găsi similitudinea cosinusului între doi vectori este –
Cos(x, y) = x . y / ||x|| * ||y||
unde,
- x . y = produsul (punct) vectorilor „x” și „y”.
- ||x||| și ||y||| = lungimea celor doi vectori ‘x’ și ‘y’.
- ||x||| * ||y||| = produsul încrucișat al celor doi vectori ‘x’ și ‘y’.
Exemplu :
Considerăm un exemplu pentru a afla similitudinea dintre doi vectori – ‘x’ și ‘y’, folosind similitudinea cosinusului.
Vectoriul ‘x’ are valorile, x = { 3, 2, 0, 5 }
Vectoriul ‘y’ are valorile, y = { 1, 0, 0, 0, 0 }
Formula de calcul a similitudinii cosinusului este : Cos(x, y) = x . y / ||x||| * ||y|||
x . y = 3*1 + 2*0 + 0*0 + 5*0 = 3||x|| = √ (3)^2 + (2)^2 + (0)^2 + (5)^2 = 6.16||y|| = √ (1)^2 + (0)^2 + (0)^2 + (0)^2 = 1∴ Cos(x, y) = 3 / (6.16 * 1) = 0.49
Disimilaritatea dintre cei doi vectori ‘x’ și ‘y’ este dată de –
∴ Dis(x, y) = 1 - Cos(x, y) = 1 - 0.49 = 0.51
- Similitudinea cosinusului între doi vectori se măsoară în ‘θ’.
- Dacă θ = 0°, vectorii ‘x’ și ‘y’ se suprapun, dovedind astfel că sunt asemănători.
- Dacă θ = 90°, vectorii ‘x’ și ‘y’ sunt disimilați.
Similitudinea cosinusului între doi vectori
Vantaje :
- Similitudinea cosinusului este benefică deoarece, chiar dacă cele două obiecte de date similare sunt foarte îndepărtate prin distanța euclidiană din cauza dimensiunii, ele ar putea avea totuși un unghi mai mic între ele. Unghiul mai mic, similitudinea este mai mare.
- Când este reprezentată pe un spațiu multidimensional, similitudinea cosinusului captează orientarea (unghiul) obiectelor de date și nu magnitudinea.