Hoofdstuk 11: Eenvoudige lineaire regressie: Eenvoudige lineaire regressie
Residuen en Totale Gekwadrateerde Afwijking
Een regressielijn de best passende rechte lijn door een reeks datapunten. Regressieanalyse gaat over het voorspellen van waarden, en wat een regressielijn 'het best passende' maakt is dat het de laagst mogelijke hoeveelheid voorspellingsfouten bevat.
In de context van regressie, wordt de hoeveelheid voorspellingsfouten uitgedrukt als residuen.
#\phantom{0}#
Residu
Een residu is de verticale afstand tussen de regressielijn en het datapunt en wordt aangeduid met #r#.
Het Berekenen van Residuen
Om een residu te berekenen, neem je een punt #(X,Y)# uit de gegevens en bepaal je de hoogte van de regressielijn op punt #X#. Dit punt is de voorspelde waarde van #Y# en wordt aangeduid met #\hat{Y}# .
Vervolgens trek je de voorspelde waarde #\hat{Y}# af van de waargenomen waarde #Y# om de waarde van het residu te bepalen:
\[r_i = Y_i - \hat{Y}_i\]
Berekening van Residuen
Bekijk de regressievergelijking #\hat{Y}=2X# en de datapunten #(1,3)#, #(3,1)# en #(4,3)#. De residuen van deze drie gegevenspunten worden als volgt berekend:
- Voor het eerste punt #(1,3)# :
- #\purple{\hat{Y}_1}=2\cdot 1=2#
- #\blue{Y_1} = 3#
- #\orange{r_1}= Y_1-\hat{Y}_1=3-2=1#.
- Voor het tweede punt #(3,1)# :
- #\purple{\hat{Y}_2}=2\cdot 3=6#
- #\blue{Y_2}=1#
- #\orange{r_2}= Y_2-\hat{Y}_2 = 1-6 =-5#.
- Voor het laatste punt #(3,3)# :
- #\purple{\hat{Y}_3} =2\cdot 4=8#
- #\blue{Y_3}=3#
- #\orange{r_3}= Y_3-\hat{Y}_3 = 3-8=-5#.
#\phantom{0}#
#\phantom{0}#
Een van de meest gebruikte maten om de totale hoeveelheid van de voorspellingsfout te meten is de Totale Gekwadrateerde Afwijking.
#\phantom{0}#
Totale Gekwadrateerde Afwijking
De Totale Gekwadrateerde Afwijking is de som van de gekwadrateerde residuen en wordt vaak afgekort als TGA.
\[\text{TGA} = \sum{r^2} = \sum{(Y-\hat{Y})^2}\]
De reden voor het kwadrateren van de residuen alvorens ze op te tellen is het voorkomen dat positieve en negatieve residuen elkaar annuleren. Als bijgevolg zal de totale gekwadrateerde afwijking altijd een positief getal zijn.
Berekening van de Totale Gekwadrateerde Afwijking
Denk aan de regressielijn en residuen van het vorige voorbeeld. In dit geval is de Totale Gekwadrateerde Afwijking:
\[\begin{array}{rcl}
\text{TGA} &=& \sum{(Y-\hat{Y})^2}\\
&=& (Y_1-\hat{Y}_1)^2 + (Y_2-\hat{Y}_2)^2 + (Y_3-\hat{Y}_3)^2\\
&=& (3-2)^2+(1-6)^2+(3-8)^2\\
&=& 1^2 + (-5)^2 + (-5)^2\\
&=& 1 + 25 + 25\\
&=& 51
\end{array}\]
omptest.org als je een OMPT examen moet maken.