GeeksforGeeks

Förutsättning – Avståndsmått i datautvinning

I datautvinning hänvisar likhetsmåttet till avstånd med dimensioner som representerar egenskaper hos dataobjektet i en datamängd. Om detta avstånd är mindre kommer det att finnas en hög grad av likhet, men när avståndet är stort kommer det att finnas en låg grad av likhet.

Några av de populära likhetsmåtten är –

  1. Euklidiskt avstånd.
  2. Manhattan Distance.
  3. Jaccard Similarity.
  4. Minkowski Distance.
  5. Cosine Similarity.

Cosine similarity är ett mått som är användbart för att avgöra hur lika dataobjekten är oberoende av deras storlek. Vi kan mäta likheten mellan två meningar i Python med hjälp av Cosine Similarity. I cosinuslikhet behandlas dataobjekten i en datamängd som en vektor. Formeln för att hitta cosinuslikheten mellan två vektorer är –

Cos(x, y) = x . y / ||x|| * ||y||

där,

  • x . y = produkt (punkt) av vektorerna ”x” och ”y”.
  • ||x|| och ||y|| = längden på de två vektorerna ’x’ och ’y’.
  • ||x|| * ||y|| = korsprodukt av de två vektorerna ’x’ och ’y’.

Exempel :
Konsultera ett exempel för att hitta likheten mellan två vektorer – ’x’ och ’y’, med hjälp av cosinuslikhet.

Vektorn ’x’ har värdena x = { 3, 2, 0, 5 }
Vektorn ’y’ har värdena y = { 1, 0, 0, 0, 0 } Formeln för att beräkna cosinuslikheten är : Cos(x, y) = x . y / ||x|| * ||y||

x . y = 3*1 + 2*0 + 0*0 + 5*0 = 3||x|| = √ (3)^2 + (2)^2 + (0)^2 + (5)^2 = 6.16||y|| = √ (1)^2 + (0)^2 + (0)^2 + (0)^2 = 1∴ Cos(x, y) = 3 / (6.16 * 1) = 0.49 

Unlikheten mellan de två vektorerna ”x” och ”y” ges av –

∴ Dis(x, y) = 1 - Cos(x, y) = 1 - 0.49 = 0.51
  • Cosinuslikheten mellan två vektorer mäts i ”θ”.
  • Om θ = 0° överlappar vektorerna ’x’ och ’y’ varandra, vilket bevisar att de är lika.
  • Om θ = 90° är vektorerna ’x’ och ’y’ olik varandra.

Kosinuslikhet mellan två vektorer

Fördelar :

  • Kosinuslikheten är fördelaktig eftersom även om de två liknande dataobjekten är långt ifrån varandra enligt det euklidiska avståndet på grund av storleken, så kan det fortfarande finnas en mindre vinkel mellan dem. Mindre vinkel, högre likhet.
  • När den plottas på ett flerdimensionellt utrymme fångar cosinuslikheten orienteringen (vinkeln) av dataobjekten och inte storleken.
Artikel Taggar :

DBMS

Practice Tags :

Lämna ett svar

Din e-postadress kommer inte publiceras.