Teho, II-tyypin virhe ja beeta

Tyypin I ja II-tyypin virhe

Muistat varmaan, että II-tyypin virhe on todennäköisyys hyväksyä nollahypoteesi (tai toisin sanoen ”olla hylkäämättä nollahypoteesia”), vaikka se olisi pitänyt hylätä. Tätä todennäköisyyttä merkitään kirjaimella β. Sitä vastoin nollahypoteesin hylkääminen silloin, kun meidän ei oikeastaan olisi pitänyt hylätä sitä, on tyypin I virhe ja sitä merkitään kirjaimella α. Tällä videolla näet havainnollisesti, missä nämä arvot ovat piirroksessa kahdesta jakaumasta H0:n ollessa tosi ja HAlt:n ollessa tosi.

  • Tyypin I virhe (α): hylkäämme H0:n virheellisesti, vaikka nollahypoteesi on tosi.
  • Tyypin II virhe (β): hyväksymme virheellisesti (tai ”emme hylkää”) H0, vaikka vaihtoehtoinen hypoteesi on tosi.

Virhemoniste

Vaihtoehtoinen hypoteesi (Ha): on susi
Nollahypoteesi (H0): ei ole sutta

  • I-tyypin virhe (α): hylkäämme virheellisesti nollahypoteesin, eli sen, että ei ole sutta (ts, uskomme, että susi on olemassa), vaikka nollahypoteesi on tosi (sutta ei ole).
  • Tyypin II virhe (β): hyväksymme virheellisesti (tai ”emme hylkää”) nollahypoteesin (sutta ei ole), vaikka vaihtoehtoinen hypoteesi on tosi (susi on olemassa).

Statistinen teho

Testin teho on todennäköisyys, että testi hylkää nollahypoteesin, kun vaihtoehtoinen hypoteesi on tosi. Toisin sanoen todennäköisyys olla tekemättä tyypin II virhettä. Toisin sanoen, mikä on testimme teho määrittää kahden populaation (H0 ja HA) välinen ero, jos tällainen ero on olemassa?

  • Teho (1-β): todennäköisyys, jolla nollahypoteesi hylätään oikein (kun nollahypoteesi ei ole tosi).
  • Tyypin II virhe (β): todennäköisyys olla hylkäämättä nollahypoteesia (kun nollahypoteesi ei ole tosi).

Tehossa on neljä toisiinsa liittyvää komponenttia:

  • B: beeta (β), koska teho on 1-β
  • E: efektin suuruus (effect size), eli erotus näytteenottohajontojen keskiarvojen keskiarvojen välillä H0 ja HAlt. Mitä suurempi näiden kahden keskiarvon välinen ero on, sitä suurempi voima testilläsi on havaita ero. Tämä kirjoitetaan matemaattisesti normalisoituna erona (d) kahden populaation keskiarvojen välillä. d = (μ1-μ0)/σ.
  • A: alfa (α), merkitsevyysarvo, joka tyypillisesti asetetaan arvoon 0,05. Tämä on raja-arvo, jolla hyväksymme tai hylkäämme nollahypoteesimme. Kun α:ta pienennetään (α = 0,1), H0:n hylkääminen on vaikeampaa. Tämä pienentää tehoa.
  • N: otoskoko (n). Mitä suuremmaksi perusjoukko tehdään, sitä pienemmäksi tulee keskivirhe (SE = σ/√n). Periaatteessa se tekee otosjakaumasta kapeamman ja siten β:stä pienemmän.

On todella hyödyllistä nähdä nämä graafisesti videolla. Kokeile piirtää esimerkkejä siitä, miten kunkin komponentin muuttaminen muuttaa tehoa, kunnes ymmärrät sen, ja kysy rohkeasti kysymyksiä (kommenteissa tai sähköpostitse).

Kliininen vs. tilastollinen merkitsevyys

Kliininen merkitsevyys eroaa tilastollisesta merkitsevyydestä. Keskiarvojen välinen ero tai hoitovaikutus voi olla tilastollisesti merkittävä, mutta ei kliinisesti merkittävä. Esimerkiksi jos otoskoko on riittävän suuri, hyvin pienet erot voivat olla tilastollisesti merkitseviä (esim. yhden kilon muutos painossa, 1 mmHg verenpaineessa), vaikka niillä ei ole todellista vaikutusta potilaan tuloksiin. Tutkimustuloksia arvioitaessa on siis tärkeää kiinnittää huomiota sekä kliiniseen että tilastolliseen merkitsevyyteen. Kliininen merkitsevyys määritetään käyttämällä kliinistä harkintaa sekä muiden tutkimusten tuloksia, jotka osoittavat lyhytaikaisempien tutkimustulosten myöhemmän aikavälin kliinisen vaikutuksen.

Testaa ymmärryksesi

Tämässä tehtävässä asetetaan teho

.

Vastaa

Sähköpostiosoitettasi ei julkaista.