Hoofdstuk 8: Toetsen voor verschillen in gemiddelden en proporties: Z-toets voor onafhankelijke Proporties
Z-toets voor onafhankelijke Proporties: Toetsingsgrootheid en p-waarde
Z-toets voor Onafhankelijke Proporties: Toetsingsgrootheid
Laat #X_1# het aantal successen in de eerste steekproef zijn en #X_2# het aantal successen in de tweede steekproef. Dan zijn #\hat{p}_1# en #\hat{p}_2# de steekproefproporties:
\[\hat{p}_1 = \cfrac{X_1}{n_1} \phantom{000000} \hat{p}_2 = \cfrac{X_2}{n_2}\]
Naast de individuele steekproefproporties hebben we ook de gepoolde steekproefproportie #\hat{p}# nodig om de toetsingsgrootheid te berekenen:
\[\hat{p} = \cfrac{X_1+X_2}{n_1+n_2}\]
De toetsingsgrootheid van een #Z#-toets voor onafhankelijke proporties wordt #Z# genoemd en wordt berekend met de volgende formule:
\[Z=\cfrac{(\hat{p}_1-\hat{p}_2) - (\pi_1 - \pi_2)}{s_{(\hat{p}_1 - \hat{p}_2)}} = \cfrac{\hat{p}_1-\hat{p}_2 }{\sqrt{\hat{p}\cdot(1-\hat{p})\cdot(\cfrac{1}{n_1}+\cfrac{1}{n_2})}}\]
waarbij #s_{(\hat{p}_1 - \hat{p}_2)}# de standaardfout van het proportie verschil is.
Wanneer beide steekproeven groot zijn #(n_1 \geq 30 \text{ en } n_2 \geq 30)#, volgt de #Z#-score de standaardnormale verdeling onder de nulhypothese van de test:
\[Z \sim N(0,1)\]
Berekening van de p-waarde van een Z-toets voor Onafhankelijke Proporties met Statistische Software
De berekening van de #p#-waarde van een #Z#-toets voor onafhankelijke proporties is afhankelijk van de richting van de test en kan worden uitgevoerd met behulp van Excel of R.
Om de #p#-waarde van een #Z#-toets voor onafhankelijke proporties voor #\pi_1 - \pi_2# in Excel te berekenen, gebruik je één van de volgende functies:
\[\begin{array}{llll}
\phantom{0}\text{Richting}&\phantom{000000}H_0&\phantom{000000}H_a&\phantom{0000000000}\text{Excel functie}\\
\hline
\text{Tweezijdig}&H_0:\pi_1 - \pi_2 = 0&H_a:\pi_1 - \pi_2 \neq 0&=2 \text{ * }(1 \text{ - }\text{NORM.DIST}(\text{ABS}(z),0,1,1))\\
\text{Linkszijdig}&H_0:\pi_1 - \pi_2 \geq 0&H_a:\pi_1 - \pi_2 \lt 0&=\text{NORM.DIST}(z,0,1,1)\\
\text{Rechtszijdig}&H_0:\pi_1 - \pi_2 \leq 0&H_a:\pi_1 - \pi_2 \gt 0&=1 \text{ - }\text{NORM.DIST}(z,0,1,1)\\
\end{array}\]
Om de #p#-waarde van een #Z#-toets voor onafhankelijke proporties voor #\pi_1 - \pi_2# in R te berekenen, gebruik je één van de volgende functies:
\[\begin{array}{llll}
\phantom{0}\text{Richting}&\phantom{000000}H_0&\phantom{000000}H_a&\phantom{0000000000}\text{R functie}\\
\hline
\text{Tweezijdig}&H_0:\pi_1 - \pi_2 = 0&H_a:\pi_1 - \pi_2 \neq 0&2 \text{ * }\text{pnorm}(\text{abs}(z),0,1, \text{FALSE})\\
\text{Linkszijdig}&H_0:\pi_1 - \pi_2 \geq 0&H_a:\pi_1 - \pi_2 \lt 0&\text{pnorm}(z,0,1, \text{TRUE})\\
\text{Rechtszijdig}&H_0:\pi_1 - \pi_2 \leq 0&H_a:\pi_1 - \pi_2 \gt 0&\text{pnorm}(z,0,1, \text{FALSE})\\
\end{array}\]
Als #p \leq \alpha#, verwerp je #H_0# en concludeer je #H_a#. Anders verwerp je #H_0# niet.
De onderzoeker is van plan een #Z#-toets voor onafhankelijke proporties te gebruiken om te bepalen of er al dan niet een significant verschil is tussen de tijdige aankomst in de ochtend en de avond, op het #\alpha = 0.10# significantieniveau.
Van de #103# ochtendtreinen arriveerden er #X_1=87# op tijd. Van de #105# avondtreinen arriveerden er #X_2=78# op tijd.
Bereken de #p#-waarde van de toets en neem een beslissing over #H_0: \pi_1 - \pi_2 = 0#. Rond je antwoord af op #3# decimalen.
#p=0.070#
Op basis van deze #p#-waarde moet #H_0# worden verworpen, omdat #\,p# #\lt# #\alpha#.
Er zijn een aantal verschillende manieren om de #p#-waarde van een toets te berekenen. Klik op één van de panelen om de desbetreffende oplossing te bekijken.
Bereken de steekproefproporties #\hat{p}_1# en #\hat{p}_2#:
\[\hat{p}_1=\cfrac{X_1}{n_1}=\cfrac{87}{103}=0.84466\\
\hat{p}_2=\cfrac{X_2}{n_2}=\cfrac{78}{105}=0.74286\]
Bereken de gepoolde steekproefproportie #\hat{p}#:
\[\hat{p}=\cfrac{X_1 + X_2 }{n_1 + n_2}=\cfrac{87 + 78}{103 + 105}=0.79327\]
Bereken de #Z#-score:
\[z=\cfrac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p} \cdot (1-\hat{p}) \cdot \bigg(\cfrac{1}{n_1}+\cfrac{1}{n_2} \bigg)}}
=\cfrac{0.84466 - 0.74286}{\sqrt{0.79327 \cdot (1-0.79327) \cdot \bigg(\cfrac{1}{103}+\cfrac{1}{105} \bigg)}}=1.8127\]
Omdat zowel #n_1# als #n_2# als groot wordt beschouwd (#\gt 30#), is de centrale limietstelling van toepassing en weten we dat de toetsingsgrootheid
\[Z=\cfrac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p} \cdot (1-\hat{p}) \cdot \bigg(\cfrac{1}{n_1}+\cfrac{1}{n_2} \bigg)}}\]
ongeveer de standaardnormale verdeling heeft, onder de aanname dat #H_0# waar is.
Voor een tweezijdige #Z#-toets is de #p#-waarde gedefinieerd als #2\cdot \mathbb{P}(Z \geq |z|)#. Om deze waarde in Excel te berekenen, gebruik je de volgende functie:
NORM.DIST(x, mean, standard_dev, cumulative)
- x : De waarde waarvoor je de kans wilt berekenen.
- mean : Het gemiddelde van de verdeling.
- standard_dev : De standaardafwijking van de verdeling.
- cumulative : Een logische waarde die de vorm van de functie bepaalt.
- TRUE - gebruikt de cumulatieve verdelingsfunctie, #\mathbb{P}(X \leq x)#
- FALSE - gebruikt de kansdichtheidsfunctie
Om #p = 2\cdot \mathbb{P}(Z \geq |z|)# te berekenen, voer je dus de volgende command uit:
\[
=2 \text{ * }(1 \text{ - } \text{NORM.DIST}(\text{ABS}(z),0,1,1))\\
\downarrow\\
=2 \text{ * }(1 \text{ - } \text{NORM.DIST}(\text{ABS}(1.81271),0,1,1))
\]
Dit geeft:
\[p = 0.070\]
Omdat #\,p# #\lt# #\alpha#, moet #H_0: \pi_1 - \pi_2 = 0# worden verworpen.
Bereken de steekproefproporties #\hat{p}_1# en #\hat{p}_2#:
\[\hat{p}_1=\cfrac{X_1}{n_1}=\cfrac{87}{103}=0.84466\\
\hat{p}_2=\cfrac{X_2}{n_2}=\cfrac{78}{105}=0.74286\]
Bereken de gepoolde steekproefproportie #\hat{p}#:
\[\hat{p}=\cfrac{X_1 + X_2 }{n_1 + n_2}=\cfrac{87 + 78}{103 + 105}=0.79327\]
Bereken de #Z#-score:
\[z=\cfrac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p} \cdot (1-\hat{p}) \cdot \bigg(\cfrac{1}{n_1}+\cfrac{1}{n_2} \bigg)}}
=\cfrac{0.84466 - 0.74286}{\sqrt{0.79327 \cdot (1-0.79327) \cdot \bigg(\cfrac{1}{103}+\cfrac{1}{105} \bigg)}}=1.8127\]
Omdat zowel #n_1# als #n_2# als groot wordt beschouwd (#\gt 30#), is de centrale limietstelling van toepassing en weten we dat de toetsingsgrootheid
\[Z=\cfrac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p} \cdot (1-\hat{p}) \cdot \bigg(\cfrac{1}{n_1}+\cfrac{1}{n_2} \bigg)}}\]
ongeveer de standaardnormale verdeling heeft, onder de aanname dat #H_0# waar is.
Voor een tweezijdige #Z#-toets is de #p#-waarde gedefinieerd als #2\cdot \mathbb{P}(Z \geq |z|)#. Om deze waarde in R te berekenen, gebruik je de volgende functie:
pnorm(q, mean, sd, lower.tail)
- q : De waarde waarvoor je de kans wilt berekenen.
- mean : Het gemiddelde van de verdeling.
- sd : De standaardafwijking van de verdeling.
- lower.tail : Als TRUE (standaard), zijn kansen #\mathbb{P}(X \leq x)#, anders, #\mathbb{P}(X \gt x)#.
Om #p = 2\cdot \mathbb{P}(Z \geq |z|)# te berekenen, voer je dus de volgende command uit:
\[
2 \text{ * } \text{pnorm}(q = \text{abs}(z), mean = 0, sd = 1,lower.tail = \text{FALSE})\\
\downarrow\\
2\text{ * } \text{pnorm}(q = \text{abs}(1.81271), mean = 0, sd = 1,lower.tail = \text{FALSE})
\]
Dit geeft:
\[p = 0.070\]
Omdat #\,p# #\lt# #\alpha#, moet #H_0: \pi_1 - \pi_2 = 0# worden verworpen.
omptest.org als je een OMPT examen moet maken.