Forudsætning – Afstandsmålinger i datamining
I datamining henviser lighedsmåling til afstanden med dimensioner, der repræsenterer dataobjekternes egenskaber i et datasæt. Hvis denne afstand er mindre, vil der være en høj grad af lighed, men når afstanden er stor, vil der være en lav grad af lighed.
Nogle af de populære lighedsmål er –
- Euklidisk afstand.
- Manhattan Distance.
- Jaccard Similarity.
- Minkowski Distance.
- Cosine Similarity.
Cosine Similarity er en måleenhed, der er nyttig til at bestemme, hvor ens dataobjekterne er uanset deres størrelse. Vi kan måle ligheden mellem to sætninger i Python ved hjælp af Cosine Similarity. I cosinuslignende lighed behandles dataobjekter i et datasæt som en vektor. Formlen til at finde cosinusligheden mellem to vektorer er –
Cos(x, y) = x . y / ||x|| * ||y||
hvor,
- x . y = produkt (prik) af vektorerne “x” og “y”.
- ||x|| og ||y|| = længden af de to vektorer ‘x’ og ‘y’.
- ||x||| * ||y|| = krydsprodukt af de to vektorer ‘x’ og ‘y’.
Eksempel :
Skønt et eksempel til at finde ligheden mellem to vektorer – ‘x’ og ‘y’, ved hjælp af cosinus lighed.
Vektoren ‘x’ har værdierne, x = { 3, 2, 0, 5 }
Vektoren ‘y’ har værdierne, y = { 1, 0, 0, 0, 0 } Formlen til beregning af cosinus ligheden er : Cos(x, y) = x . y / ||x||| * ||y||
x . y = 3*1 + 2*0 + 0*0 + 5*0 = 3||x|| = √ (3)^2 + (2)^2 + (0)^2 + (5)^2 = 6.16||y|| = √ (1)^2 + (0)^2 + (0)^2 + (0)^2 = 1∴ Cos(x, y) = 3 / (6.16 * 1) = 0.49
Den manglende lighed mellem de to vektorer ‘x’ og ‘y’ er givet ved –
∴ Dis(x, y) = 1 - Cos(x, y) = 1 - 0.49 = 0.51
- Kosinus ligheden mellem to vektorer måles i ‘θ’.
- Hvis θ = 0°, overlapper vektorerne ‘x’ og ‘y’ hinanden, hvilket beviser, at de ligner hinanden.
- Hvis θ = 90°, er vektorerne ‘x’ og ‘y’ uensartede.
Kosinussammenfald mellem to vektorer
Fordele :
- Kosinussammenfaldet er fordelagtigt, fordi selv om de to ens dataobjekter er langt fra hinanden i forhold til den euklidiske afstand på grund af størrelsen, kan de stadig have en mindre vinkel mellem dem. Mindre vinkel, højere lighed.
- Når den er plottet på et flerdimensionalt rum, indfanger cosinus ligheden orienteringen (vinklen) af dataobjekterne og ikke størrelsen.