Type I and Type II Error
Je zult je herinneren dat Type II error de kans is dat we de nulhypothese accepteren (of met andere woorden “de nulhypothese niet verwerpen”) terwijl we die eigenlijk hadden moeten verwerpen. Deze kans wordt aangeduid met de letter β. De nulhypothese verwerpen terwijl dat eigenlijk niet had gemoeten, is daarentegen een type I-fout en wordt aangeduid met α. In deze video ziet u picturaal waar deze waarden liggen op een tekening van de twee verdelingen van H0 als waar en HAlt als waar.
- Type I-fout (α): we verwerpen ten onrechte H0, ook al is de nulhypothese waar.
- Type II-fout (β): we accepteren ten onrechte (of “verwerpen” niet) H0, ook al is de alternatieve hypothese waar.
Een foutmnemonogram
Alternatieve hypothese (Ha): er is een wolf
Nulhypothese (H0): er is geen wolf
- Type I-fout (α): we verwerpen ten onrechte de nulhypothese, namelijk dat er geen wolf is (d.w.z, we geloven dat er een wolf is), ook al is de nulhypothese waar (er is geen wolf).
- Type II-fout (β): we accepteren ten onrechte (of “verwerpen niet”) de nulhypothese (er is geen wolf), ook al is de alternatieve hypothese waar (er is wel een wolf).
Statistisch vermogen
Het vermogen van een test is de kans dat de test de nulhypothese verwerpt wanneer de alternatieve hypothese waar is. Met andere woorden, de kans dat er geen Type II-fout wordt gemaakt. Met andere woorden, wat is de power van onze test om een verschil tussen twee populaties (H0 en HA) vast te stellen als zo’n verschil bestaat?
- Power (1-β): de kans dat de nulhypothese correct wordt verworpen (als de nulhypothese niet waar is).
- Type II-fout (β): de kans dat de nulhypothese niet wordt verworpen (wanneer de nulhypothese niet waar is).
Er zijn vier onderling samenhangende componenten van power:
- B: bèta (β), aangezien power 1-β is
- E: effectgrootte, het verschil tussen de gemiddelden van de steekproefverdelingen van H0 en HAlt. Hoe groter het verschil tussen deze twee gemiddelden, hoe meer power uw test zal hebben om een verschil op te sporen. Dit wordt wiskundig uitgedrukt als een genormaliseerd verschil (d) tussen de gemiddelden van de twee populaties. d = (μ1-μ0)/σ.
- A: alpha (α), de significantiewaarde die gewoonlijk op 0,05 wordt gesteld, dit is de grens waarbij wij onze nulhypothese aanvaarden of verwerpen. Door α kleiner te maken (α = 0,1) wordt het moeilijker de H0 te verwerpen. Hierdoor wordt de power kleiner.
- N: steekproefgrootte (n). Hoe groter je de populatie maakt, hoe kleiner de standaardfout wordt (SE = σ/√n). In feite wordt de steekproefverdeling smaller, waardoor β kleiner wordt.
Het helpt echt om deze grafieken in de video te zien. Probeer voorbeelden te tekenen van hoe het veranderen van elke component de macht verandert tot je het snapt en voel je vrij om vragen te stellen (in de commentaren of per e-mail).
Clinische versus statistische significantie
Clinische significantie is anders dan statistische significantie. Een verschil tussen gemiddelden, of een behandelingseffect, kan statistisch significant zijn, maar niet klinisch betekenisvol. Bijvoorbeeld, als de steekproefgrootte groot genoeg is, kunnen zeer kleine verschillen statistisch significant zijn (bv. 1 pond verandering in gewicht, 1 mmHg bloeddruk), ook al zullen ze geen echte impact hebben op de patiëntresultaten. Het is dus belangrijk om bij de beoordeling van studieresultaten zowel op de klinische als op de statistische significantie te letten. Klinische significantie wordt bepaald aan de hand van een klinisch oordeel, maar ook aan de hand van resultaten van andere studies die aantonen wat het klinische effect is van onderzoeksresultaten op kortere termijn.
Test uw begrip
Met dit probleem ingesteld op vermogen.