Hoofdstuk 8: Toetsen voor verschillen in gemiddelden en proporties: T-Toets voor twee gepaarde steekproeven
Gepaarde t-toets: Toetsingsgrootheid en p-waarde
Gepaarde t-toets: Toetsingsgrootheid
De toetsingsgrootheid van een gepaarde #t#-toets wordt aangeduid als #t#.
Om de #t#-statistiek te berekenen, bereken je eerst de verschilscore #\boldsymbol{D}# voor elk subject:
\[D_i = X_i - Y_i \phantom{000}\text{of}\phantom{000} D_i = Y_i - X_i\]
De resulterende steekproef van #n# verschilscores zal dienen als steekproefgegevens voor de hypothesetoets.
Nadat de steekproef van verschilscores is berekend, bereken je het steekproefgemiddelde #\boldsymbol{\bar{D}}# en de steekproefstandaardafwijking #\boldsymbol{s_D}# voor de steekproef van verschilscores#^1# :
\[\bar{D} = \cfrac{\sum{D}}{n}\phantom{00000} s_D = \sqrt{\cfrac{\sum(D - \bar{D})^2}{n-1}}\phantom{000}\text{of}\phantom{000}s_D = \sqrt{\cfrac{\sum{D^2}-\cfrac{(\sum{D})^2}{n}}{n-1}}\]
Nadat de statistieken van de steekproef van verschilscores zijn berekend, kan de #t#-statistiek worden berekend:
\[t = \cfrac{\bar{D} - \mu_D}{s_{\bar{D}}} = \cfrac{\bar{D}}{s_D/\sqrt{n}}\]
Onder de nulhypothese van een gepaarde #t#-toets, zal de #t#-statistiek een #t#-verdeling volgen met #df = n - 1# vrijheidsgraden.
\[t \sim t_{n-1}\]
De p-waarde van een Gepaarde t-toets Berekenen met Statistische Software
De berekening van de #p#-waarde van een gepaarde #t#-toets is afhankelijk van de richting van de toets en kan worden uitgevoerd met Excel of R.
Gebruik een van de volgende functies om de #p#-waarde van een gepaarde #t#-toets voor #\mu_D# in Excel te berekenen:
\[\begin{array}{llll}
\phantom{0}\text{Richting}&\phantom{0000}H_0&\phantom{0000}H_a&\phantom{0000000000}\text{Excel Functie}\\
\hline
\text{Tweezijdig}&H_0:\mu_D = 0&H_a:\mu_D \neq 0&=2 \text{ * }(1 \text{ - } \text{T.DIST}(\text{ABS}(t),n\text{ - }1,1))\\
\text{Linkszijdig}&H_0:\mu_D \geq 0&H_a:\mu_D \lt 0&=\text{T.DIST}(t,n\text{ - }1,1)\\
\text{Rechtszijdig}&H_0:\mu_D \leq 0&H_a:\mu_D \gt 0&=1\text{ - }\text{T.DIST}(t,n\text{ - }1,1)\\
\end{array}\]
Gebruik een van de volgende functies om de #p#-waarde van een gepaarde #t#-toets voor #\mu_D# in R te berekenen:
\[\begin{array}{llll}
\phantom{0}\text{Richting}&\phantom{0000}H_0&\phantom{0000}H_a&\phantom{00000000000}\text{R Functie}\\
\hline
\text{Tweezijdig}&H_0:\mu_D = 0&H_a:\mu_D \neq 0&2 \text{ * }\text{pt}(\text{abs}(t),n\text{ - }1,lower.tail=\text{FALSE})\\
\text{Linkszijdig}&H_0:\mu_D \geq 0&H_a:\mu_D \lt 0&\text{pt}(t,n\text{ - }1, lower.tail=\text{TRUE})\\
\text{Rechtzijdig}&H_0:\mu_D \leq 0&H_a:\mu_D \gt 0&\text{pt}(t,n\text{ - }1, lower.tail=\text{FALSE})\\
\end{array}\]
Als #p \leq \alpha#, verwerp je #H_0# en kies je #H_a#. Anders mag je #H_0# niet verwerpen.
De regering van Canada wil weten of de legalisering van marihuana effect heeft gehad op het aantal drugsdelicten. Om deze kwestie te onderzoeken, selecteert een onderzoeker een eenvoudige willekeurige steekproef van #12# steden en vergelijkt hij de cijfers van drugsgerelateerde delicten vóór #(X)# en na #(Y)# de legalisatie werd ingevoerd.
De waarden in onderstaande tabel zijn het aantal drugsgerelateerde delicten per #100#, #000# inwoners:
City | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
#X:\,\text{Before}# | #240# | #269# | #253# | #225# | #249# | #258# | #255# | #223# | #248# | #234# | #244# | #242# |
#Y:\,\text{After}# | #241# | #263# | #257# | #231# | #248# | #264# | #252# | #218# | #244# | #234# | #239# | #236# |
Je mag aannemen dat de populatieverdelingen van drugsgerelateerde delicten zowel voor als na de legalisatie normaal zijn.
De onderzoeker is van plan een gepaarde #t#-toets te gebruiken om te bepalen of de legalisering van marihuana een significant effect heeft gehad op het aantal drugsgerelateerde overtredingen.
Definieer #D=Y-X# .
Bereken de #p#-waarde van de toets en neem een beslissing over #H_0: \mu_D = 0#. Rond je antwoord af op #3# decimalen. Gebruik het #\alpha = 0.03# significantieniveau.
#p=0.422#
Op basis van deze #p#-waarde wordt #H_0# niet verworpen, omdat #\,p# #\gt# #\alpha#.
Er zijn een aantal verschillende manieren waarop we de #p#-waarde van de toets kunnen berekenen. Klik op één van de panelen om de desbetreffende oplossing te bekijken.
City | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
#X:\,\text{Before}# | #240# | #269# | #253# | #225# | #249# | #258# | #255# | #223# | #248# | #234# | #244# | #242# |
#Y:\,\text{After}# | #241# | #263# | #257# | #231# | #248# | #264# | #252# | #218# | #244# | #234# | #239# | #236# |
#D:\,\text{Difference}# | #1# | #-6# | #4# | #6# | #-1# | #6# | #-3# | #-5# | #-4# | #0# | #-5# | #-6# |
Bereken het gemiddelde van de verschilscores #\bar{D}# :
\[\bar{D}=\cfrac{\displaystyle \sum D}{n}=\cfrac{ (1) + (-6) + (4) + (6) + (-1) + (6) + (-3) + (-5) + (-4) + (0) + (-5) + (-6) }{ 12 }= -1.083333 \]
Bereken de standaardafwijking van de verschilscores #s_{D}# :
\[
\displaystyle \sum D = (1) + (-6) + (4) + (6) + (-1) + (6) + (-3) + (-5) + (-4) + (0) + (-5) + (-6) = -13
\\\phantom{0}\\
\displaystyle \sum D^2 = (1)^2 + (-6)^2 + (4)^2 + (6)^2 + (-1)^2 + (6)^2 + (-3)^2 + (-5)^2 + (-4)^2 + (0)^2 + (-5)^2 + (-6)^2 = 237
\\\phantom{0}\\
s_D = \displaystyle\sqrt{\cfrac{\sum D^2 - \cfrac{(\sum D)^2}{n}}{n-1}} = \displaystyle\sqrt{\cfrac{ 237 - \cfrac {( -13 )^2}{ 12 }}{ 12 -1}} = 4.501683
\]
Bereken de #t#-statistiek:
\[t=\cfrac{\bar{D}}{s_D/\sqrt{n}}=\cfrac{ -1.083333 }{ 4.501683 /\sqrt{ 12 }} = -0.8336 \]
We nemen aan dat de populatieverdelingen van drugsgerelateerde delicten normaal zijn, en weten daarom dat de toetsingsgrootheid
\[t=\cfrac{\bar{D}}{s_D/\sqrt{n}}\]
de #t_{n-1} = t_{{11}}# verdeling heeft, onder de aanname dat #H_0# waar is.
Om de #p#-waarde van een #t #-test te berekenen, gebruiken we de volgende Excel functie:
T.DIST(x, deg_freedom, cumulative)
- x: De waarde waarvoor je de kans wilt berekenen.
- deg_freedom: Een getal dat het aantal vrijheidsgraden aangeeft.
- cumulative: Een logische waarde die de vorm van de functie bepaalt.
- TRUE - gebruikt de cumulatieve verdelingsfunctie, #\mathbb{P}(X \leq x)#
- FALSE - gebruikt de kansdichtheidsfunctie
Omdat dit een tweezijdige #t#-test is, voer je de volgende command uit om de #p#-waarde te berekenen:
\[
=2 \text{ * }(1 \text{ - } \text{T.DIST}(\text{ABS}(t),n \text{ - } 1,1))\\
\downarrow\\
=2 \text{ * }(1 \text{ - } \text{T.DIST}(\text{ABS}( \text{-}0.83364 ), 12 \text{ - } 1,1))
\]
Dit geeft:
\[p = 0.422\]
Omdat #\,p# #\gt# #\alpha#, moet #H_0: \mu_D = 0# niet worden verworpen.
City | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
#X:\,\text{Before}# | #240# | #269# | #253# | #225# | #249# | #258# | #255# | #223# | #248# | #234# | #244# | #242# |
#Y:\,\text{After}# | #241# | #263# | #257# | #231# | #248# | #264# | #252# | #218# | #244# | #234# | #239# | #236# |
#D:\,\text{Difference}# | #1# | #-6# | #4# | #6# | #-1# | #6# | #-3# | #-5# | #-4# | #0# | #-5# | #-6# |
Bereken het gemiddelde van de verschilscores #\bar{D}# :
\[\bar{D}=\cfrac{\displaystyle \sum D}{n}=\cfrac{ (1) + (-6) + (4) + (6) + (-1) + (6) + (-3) + (-5) + (-4) + (0) + (-5) + (-6) }{ 12 }= -1.083333 \]
Bereken de standaardafwijking van de verschilscores #s_{D}# :
\[
\displaystyle \sum D = (1) + (-6) + (4) + (6) + (-1) + (6) + (-3) + (-5) + (-4) + (0) + (-5) + (-6) = -13
\\\phantom{0}\\
\displaystyle \sum D^2 = (1)^2 + (-6)^2 + (4)^2 + (6)^2 + (-1)^2 + (6)^2 + (-3)^2 + (-5)^2 + (-4)^2 + (0)^2 + (-5)^2 + (-6)^2 = 237
\\\phantom{0}\\
s_D = \displaystyle\sqrt{\cfrac{\sum D^2 - \cfrac{(\som D)^2}{n}}{n-1}} = \displaystyle\sqrt{\cfrac{ 237 - \cfrac {( -13 )^2}{ 12 }}{ 12 -1}} = 4.501683
\]
Bereken de #t#-statistiek:
\[t=\cfrac{\bar{D}}{s_D/\sqrt{n}}=\cfrac{ -1.083333 }{ 4.501683 /\sqrt{ 12 }} = -0.8336 \]
We nemen aan dat de populatieverdelingen van drugsgerelateerde delicten normaal zijn, en weten daarom dat de toetsingsgrootheid
\[t=\cfrac{\bar{D}}{s_D/\sqrt{n}}\]
de #t_{n-1} = t_{{11}}# verdeling heeft, onder de aanname dat #H_0# waar is.
Om de #p#-waarde van een #t#-test te berekenen, maak je gebruik van de volgende R-functie:
pt(q, df, lower.tail)
- q: De waarde waarvoor je de kans wilt berekenen.
- df: Een getal dat het aantal vrijheidsgraden aangeeft.
- lower.tail: Als TRUE (standaard), zijn kansen #\mathbb{P}(X \leq x)#, anders, #\mathbb{P}(X \gt x)#.
Omdat we te maken hebben met een tweezijdige #t#-test, voer je de volgende command uit om de #p#-waarde te berekenen:
\[
2 \text{ * } \text{pt}(q = \text{abs}(t), df = n \text{ - } 1, lower.tail = \text{FALSE})\\
\downarrow\\
2\text{ * } \text{pt}(q = \text{abs}( \text{-}0.83364 ), df = 12 \text{ - } 1,lower.tail = \text{FALSE})
\]
Dit geeft:
\[p = 0.422\]
Omdat #\,p# #\gt# #\alpha#, moet #H_0: \mu_D = 0# niet worden verworpen.
omptest.org als je een OMPT examen moet maken.