Overblik:
Middelværdi / Median /Middelværdi / Varians / Standardafvigelse er alle meget grundlæggende, men meget vigtige statistiske begreber, der anvendes inden for datalogi. Næsten alle maskinlæringsalgoritmer anvender disse begreber i datapræprocesseringstrin. Disse begreber er en del af beskrivende statistik, hvor vi grundlæggende bruger dem til at beskrive og forstå data for funktioner i maskinlæring
Middelværdi :
Middelværdi er også kendt som gennemsnittet af alle tallene i datasættet, som beregnes ved nedenstående ligning.
Lader os sige, at vi har nedenstående højder på personer.
højder=
Median :
Median er midterste værdi i dette ordnede datasæt.
Rangér dataene i stigende orden og find derefter midterværdien.
Hvis vi har et lige antal værdier i datasættet, så er medianen summen af de to midterste tal divideret med 2
Hvis vi har et ulige antal i datasættet som nedenfor, hvor vi har 9 højder, vil medianen være den 5. talværdi.
Mode :
Mode er det tal, der forekommer hyppigst i datasættet.Her forekommer 150 to gange, så det er vores mode.
Varians :
Varians er de numeriske værdier, der beskriver observationernes variabilitet i forhold til det aritmetiske gennemsnit og betegnes ved sigma-kvadrat(σ2 )
Varians måler, hvor langt individerne i gruppen er spredt ud, i datasættet fra gennemsnittet.
Hvor
Xi : Elementer i datasættet
mu : populationens gennemsnit
=populationsgennemsnittet
Strin 1: Denne formel siger, at man tager hvert element fra datasættet (populationen) og trækker det fra datasættets gennemsnit.Senere summeres alle værdierne.
Strin 2: Tag summen i trin 1 og divider den med det samlede antal elementer.
Kvadratet i ovenstående formel vil ophæve effekten af det negative tegn(-)
Standardafvigelse :
Det er et mål for spredningen af observationer inden for datasættet i forhold til deres gennemsnit.Den er kvadratroden af variansen og betegnes Sigma (σ) .
Standardafvigelse udtrykkes i samme enhed som værdierne i datasættet, så den måler, hvor meget observationerne i datasættet afviger fra dets gennemsnit.