Hypothesetesten met R uitgelegd (deel 1)

Hypothesetesten is een van de belangrijkste en meest interessante onderwerpen van de Inferentiële statistieken. Hypothesetesten is niets anders dan een statistisch model dat is ontworpen om de geldigheid van een hypothese of claim te testen. Stel dat u en uw neven en nichten besluiten een spel te spelen waarin u allemaal een dobbelsteen gooit. Nu heeft ieder van jullie een eerlijke en gelijke kans van 1/6 om een ​​6 te krijgen. Jullie gooien allemaal 5 keer met de dobbelstenen en elke keer is het je jongste neef die 6 heeft en jullie beginnen allemaal te denken of hij op de een of andere manier vreemdgaat. Hoe u die hypothese statistisch test, is het proces van hypothesetesten.

Verkenning van de terminologieën

Berekenen van de P-waarde met behulp van T-Statistics

Laten we eens kijken hoe we P-waarde en T-Score handmatig kunnen berekenen, ook met R. We zullen ook kijken naar de interpretatie van de resultaten.

Formules om P-waarde en T-statistiek te berekenen

P-waarde = (x̅ – μ) / (σ√n)

T- score = (x̅ – μ) / (s / √n)

Mate van vrijheid = in het geval van een eenzijdige toets, is df n-1 en in het geval van een tweezijdige toets is df n-2.

Waar –

Voorbeeld van T-Test met R

Laten we een voorbeeld nemen van een ongepaarde T-test met twee steekproeven. Stel dat u een productmanager bent en bezig bent met het optimaliseren van een online sollicitatietraject. U heeft enkele wijzigingen aangebracht in de reis en nu vergelijkt u de tijd die gebruikers hebben doorgebracht. De hypothese is dat klanten tijdens de nieuwe reis minder tijd zullen besteden aan het invullen van de applicatie.

De boxplot ziet er zo uit en we kunnen zeggen dat de gegevens normaal verdeeld zijn.

Als alternatief kunnen we, om de gegevensverdeling te visualiseren, ook een verdelingscurve uitzetten –

De output wordt hieronder gegeven staten p-waarde = 0.1714 die hoger is dan de alpha 0.05 zodat we kunnen concluderen dat er geen ongelijkheid in variantie is.

Assumption checklist voordat T-Test wordt uitgevoerd

De volgende drie aannames moeten worden gemarkeerd als gecontroleerd voordat de t-test wordt uitgevoerd:

Oké, we hebben alle aannames gecontroleerd, laten we de test uitvoeren en kijken of de veranderingen die je tijdens het sollicitatietraject hebt aangebracht, iets magisch hebben gedaan of niet.

De T-test uitvoeren

De uitvoer zal zijn:

Hier in de resultaten staat t voor t-teststatistieken, en df betekent de vrijheidsgraad. In dit resultaat kunnen we duidelijk zien dat de p-waarde = 0,01327 lager is dan alfa 0,05, wat betekent dat zelfs als de nulhypothese waar is, er ongeveer 1% kans is om resultaten te krijgen die vergelijkbaar zijn met die. We hebben het al gelezen dat als de p-waarde die wordt waargenomen tijdens de test lager is dan alfa (in ons geval was het 0,05), de nulhypothese wordt verworpen.

Fouten bij het testen van hypothesen

Over het algemeen zijn er twee soorten fouten bij het testen van hypothesen, namelijk Type I- en Type II-fouten.

Type I-fout

De nulhypothese ten onrechte verwerpen, zelfs als deze waar is. Deze fout wordt ook wel vals positief genoemd.

Type II-fout

Type II-fout is wanneer de onderzoeker ten onrechte de nulhypothese verwerpt, zelfs als deze onjuist is. Deze fout wordt ook wel vals negatief genoemd.

Conclusie

Dit was dus een inleiding tot de enige techniek van niet-bayesiaanse hypothesetesten. Behalve T-Statistics zijn Z-Score en Bayesiaanse analyse andere belangrijke en populaire technieken voor het testen van hypothesen. We zullen Z-statistieken en Bayesiaanse analyse behandelen in komende blogs.