GeeksforGeeks

Wstęp – Miary odległości w Data Mining

W Data Mining, miara podobieństwa odnosi się do odległości z wymiarami reprezentującymi cechy obiektu danych, w zbiorze danych. Jeśli ta odległość jest mniejsza, będzie wysoki stopień podobieństwa, ale gdy odległość jest duża, będzie niski stopień podobieństwa.

Niektóre z popularnych miar podobieństwa są –

  1. Euclidean Distance.
  2. Dystans Manhattan.
  3. Podobieństwo Jaccard.
  4. Dystans Minkowski.
  5. Podobieństwo cosinusoidalne.

Podobieństwo cosinusoidalne jest metryką, pomocną w określaniu, jak bardzo podobne są obiekty danych niezależnie od ich wielkości. Możemy zmierzyć podobieństwo pomiędzy dwoma zdaniami w Pythonie używając podobieństwa cosinusowego. W podobieństwie cosinusowym, obiekty danych w zbiorze danych są traktowane jako wektor. Wzór na znalezienie podobieństwa cosinusowego między dwoma wektorami to –

Cos(x, y) = x . y / ||x|| * ||y||

gdzie,

  • x . y = iloczyn (kropka) wektorów „x” i „y”.
  • ||x|| i ||y|| = długości dwóch wektorów 'x’ i 'y’.
  • ||x| * ||y|| = iloczyn krzyżowy dwóch wektorów 'x’ i 'y’.

Przykład :
Rozważmy przykład na znalezienie podobieństwa między dwoma wektorami – 'x’ i 'y’, za pomocą podobieństwa cosinusowego.

Wektor 'x’ ma wartości, x = { 3, 2, 0, 5 }
Wektor 'y’ ma wartości, y = { 1, 0, 0, 0 }

Wzór na obliczenie podobieństwa cosinusowego to : Cos(x, y) = x . y / ||x|| * ||y||

x . y = 3*1 + 2*0 + 0*0 + 5*0 = 3||x|| = √ (3)^2 + (2)^2 + (0)^2 + (5)^2 = 6.16||y|| = √ (1)^2 + (0)^2 + (0)^2 + (0)^2 = 1∴ Cos(x, y) = 3 / (6.16 * 1) = 0.49 

Podobieństwo między dwoma wektorami 'x’ i 'y’ jest dane przez –

∴ Dis(x, y) = 1 - Cos(x, y) = 1 - 0.49 = 0.51
  • Podobieństwo cosinusowe między dwoma wektorami jest mierzone w 'θ’.
  • Jeśli θ = 0°, wektory „x” i „y” pokrywają się, co dowodzi, że są podobne.
  • Jeśli θ = 90°, wektory „x” i „y” są niepodobne.

Podobieństwo cosinusoidalne między dwoma wektorami

Zalety :

  • Podobieństwo cosinusoidalne jest korzystne, ponieważ nawet jeśli dwa podobne obiekty danych są oddalone od siebie o odległość euklidesową ze względu na rozmiar, nadal mogą mieć mniejszy kąt między sobą. Mniejszy kąt, wyższe podobieństwo.
  • Po wykreśleniu na wielowymiarowej przestrzeni, podobieństwo cosinusowe wychwytuje orientację (kąt) obiektów danych, a nie wielkość.
Tagi artykułu :

DBMS

Practice Tags :

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.