Ik keek laatst naar een oude motorfilm uit de jaren zestig, en ik werd getroffen door het jargon van de motorrijders. Ze hadden een geheel eigen taal. Net als statistici, wier manier van spreken vaak verwarrend is voor degenen die niet bekend zijn met de lingo van data-analyse.
Het zette me aan het denken … wat als er een all-statistician biker gang zou zijn? Noem ze de Nulls Angels. Stel je ze voor in hun kleuren, scheurend over het platteland, gegevens analyserend en de mensen die ze onderweg tegenkomen vragend of ze “de nulhypothese niet verwerpen.”
Als je erop wijst hoe vreemd die zin klinkt, weten de Nulls Angels dat je niet cool bent… en niet erg op de hoogte van statistiek.
Puur als redacteur gesproken, geef ik toe dat “de nulhypothese niet verwerpen” cringe-worthy is. “Niet afwijzen” lijkt een te ingewikkeld equivalent om te accepteren. Op zijn minst is het een onhandige formulering.
Maar het blijkt dat die ruige statistici in de Nulls Angels een goede reden hebben om zo te praten. Vanuit een statistisch perspectief is het ontegenzeggelijk accuraat, en “niet afwijzen” vervangen door “accepteren” zou gewoon verkeerd zijn.
Wat is de nulhypothese eigenlijk?
Hypothese-tests omvatten een- en twee-sample t-tests, tests voor associatie, tests voor normaliteit, en nog veel meer. (Al deze tests zijn beschikbaar in het menu Stat in de statistische software Minitab. Of, als u wat meer statistische begeleiding wilt, kan de Assistant u stap voor stap door gangbare hypothesetoetsen leiden.)
Een hypothesetoets onderzoekt twee stellingen: de nulhypothese (of kortweg H0) en de alternatieve hypothese (H1). De alternatieve hypothese is wat we hopen te staven. We nemen aan dat de nulhypothese waar is, tenzij de gegevens voldoende bewijs leveren dat dit niet het geval is.
U kent de uitdrukking “Onschuldig tot het tegendeel is bewezen” wel. Dat betekent dat de onschuld van de verdachte als vanzelfsprekend wordt beschouwd totdat schuld is bewezen. In de statistiek wordt de nulhypothese als vanzelfsprekend beschouwd totdat het alternatief waar is gebleken.
Waarom “verwerpen” we de nulhypothese dan niet?
Dat brengt ons bij de kwestie van het “bewijs”.
De mate van statistisch bewijs die we nodig hebben om de alternatieve hypothese te “bewijzen” is het betrouwbaarheidsniveau. Het betrouwbaarheidsniveau is 1 min het risico van een type I-fout, die optreedt wanneer je een nulhypothese die waar is, ten onrechte verwerpt. Statistici noemen dit risico alpha, en verwijzen er ook naar als het significantieniveau. De gebruikelijke alfa van 0,05 komt overeen met een 95%-betrouwbaarheidsniveau: we accepteren een 5% kans op verwerping van de nul, zelfs als deze waar is. (In zaken van leven of dood kunnen we het risico van een Type I-fout verlagen tot 1% of minder.
Ongeacht het alfaniveau dat we kiezen, heeft elke hypothesetest slechts twee mogelijke uitkomsten:
- Verwerp de nulhypothese en concludeer dat de alternatieve hypothese waar is op het 95%-betrouwbaarheidsniveau (of het niveau dat u hebt gekozen).
- De nulhypothese niet verwerpen en concluderen dat er niet genoeg bewijsmateriaal is om aan te nemen dat de nulhypothese onwaar is bij een betrouwbaarheidsniveau van 95%.
We gebruiken vaak een p-waarde om te bepalen of de gegevens de nulhypothese ondersteunen of niet. Als de p-waarde van de test lager is dan het door ons gekozen alfa-niveau, verwerpen wij de nulhypothese. Of, zoals statistici zeggen: “Als de p-waarde laag is, moet de nul weg.”
Dit verklaart nog steeds niet waarom een statisticus de nulhypothese niet zal “aanvaarden.” Hier komt het op neer: het niet verwerpen van de nulhypothese bewijst niet dat de nulhypothese waar is. Dat komt omdat een hypothesetest niet bepaalt welke hypothese waar is, of zelfs welke het meest waarschijnlijk is: hij beoordeelt alleen of er bewijs is om de nulhypothese te verwerpen.
“Null Until Proved Alternative”
Haal terug naar “onschuldig tot het tegendeel bewezen is”. Als de data analist, ben jij de rechter. De hypothesetest is de rechtszaak, en de nulhypothese is de beklaagde. De alternatieve hypothese is de aanklager, die zijn zaak buiten redelijke twijfel (zeg, met 95% zekerheid) moet bepleiten.
Als uit het bewijs van de rechtszaak niet blijkt dat de beklaagde schuldig is, is ook niet bewezen dat de beklaagde onschuldig is. Maar op basis van het beschikbare bewijs, kunt u die mogelijkheid niet verwerpen. Dus hoe zou u uw vonnis bekendmaken?
“Niet schuldig.”
Die zin is perfect: “Niet schuldig” zegt niet dat de verdachte onschuldig is, want dat is niet bewezen. Het zegt alleen dat de aanklager de rechter er niet van kon overtuigen de aanname van onschuld te laten varen.
Dus “failure to reject the null” is het statistische equivalent van “niet schuldig.” In een rechtszaak, ligt de bewijslast bij de aanklager. Bij het analyseren van gegevens, ligt de bewijslast bij uw steekproefgegevens. “Niet schuldig’ betekent niet ‘onschuldig’, en ‘de nulhypothese niet verwerpen’ is iets heel anders dan ‘deze aanvaarden’.
Dus als een groep plunderende statistici in hun Nulls Angels-pakje u ooit vraagt, houd uzelf dan in de gunst, en laat zien dat u weet dat “de nulhypothese niet verwerpen” niet “de nulhypothese aanvaarden” is.