Hoofdstuk 11: Eenvoudige lineaire regressie: Eenvoudige lineaire regressie
Het Vinden van de Regressievergelijking
Een regressielijn is de best passende rechte lijn door een reeks gegevenspunten. Wat een lijn de best passende maakt is dat het verschil wordt geminimaliseerd tussen de voorspelde en waargenomen waarden van #Y#.
Dit hoofdstuk beschrijft een methode waarbij de helling en het snijpunt van de regressielijn direct worden berekend.
#\phantom{0}#
Berekening Regressiecoëfficiënt en Snijpunt
Het uitvoeren van een eenvoudige lineaire regressieanalyse resulteert in een regressievergelijking van de vorm:
\[\hat{Y}=b_0 + b_1 \cdot X\]
Om de helling #b_1# te berekenen van de regressielijn, gebruik je de volgende formule:
\[b_1 =\cfrac{\sum\limits_{i=1}^n{(X_i-\bar{X})(Y_i-\bar{Y})}}{\sum\limits_{i=1}^n{(X_i-\bar{X})^2}}\]
Zodra de helling bekend is, kan men het snijpunt #b_0# berekenen van de regressie met de volgende formule:
\[b_0 = \bar{Y} - b_1 \cdot \bar{X}\]
Beschouw de volgende #5# paren van data punten:
#X_i# | #Y_i# |
#1# | #2# |
#2# | #8# |
#3# | #1# |
#4# | #8# |
#5# | #7# |
Zoek de regressielijn die overeenkomt met deze punten.
De eerste stap bij het bepalen van de regressielijn is het berekenen van de gemiddelde waarden van #X# en #Y#.
\[\begin{array}{rcl}
\bar{X}&=&\displaystyle\cfrac{\sum\limits_{i=1}^n{X_i}}{n} = \dfrac{1+2+3+4+5}{5}=\dfrac{15}{5}=3\\\\
\bar{Y}&=&\displaystyle\cfrac{\sum\limits_{i=1}^n{Y_i}}{n} = \dfrac{2+8+1+8+7}{5}=\dfrac{26}{5}=5.2
\end{array}\]
Zoek vervolgens de waarden van #(X_i-\bar{X}), (Y_i-\bar{Y}), (X_i-\bar{X})^2# en #(X_i-\bar{X})(Y_i-\bar{Y})# voor elk paar datapunten:
#X# | #Y# | #X_i - \bar{X}# | #Y_i - \bar{Y}# | #(X_i - \bar{X})^2# | #(X_i - \bar{X})(Y_i - \bar{Y})# |
#1# | #2# | #-2# | #-3.2# | #4# | #6.4# |
#2# | #8# | #-1# | #2.8# | #1# | #-2.8# |
#3# | #1# | #0# | #-4.2# | #0# | #0# |
#4# | #8# | #1# | #2.8# | #1# | #2.8# |
#5# | #7# | #2# | #1.8# | #4# | #3.6# |
Met deze informatie kunnen de helling #b_1# en het snijpunt #b_0# worden berekend:
\[\begin{array}{rcl}
b_1 &=& \displaystyle\cfrac{\sum\limits_{i=1}^n{(X_i-\bar{X})(Y_i-\bar{Y})}}{\sum\limits_{i=1}^n{(X_i-\bar{X})^2}}\\\\
&=& \cfrac{6.4-2.8+0+2.8+3.6}{4+1+0+1+4}\\\\
&=& 1.0\\\\
b_0 &=& \bar{Y} - b_1 \cdot \bar{X}\\\\
&=& 5.2 - (1.0)\cdot3\\\\
&=& 2.2
\end{array}\]
De regressievergelijking is dus:
\[\begin{array}{rcl}
\hat{Y} &=& b_0 + b_1X\\\\
&=& 2.2+ 1.0X
\end{array}\]
Merk op dat de regressielijn altijd door het gemiddelde punt #(\bar{X},\bar{Y})# gaat.
In dit geval hebben we #(\bar{X},\bar{Y})= (3,5.2)#. Het invoeren van #X=3# in de vergelijking geeft:
\[\begin{array}{rcl}
\hat{Y} &=& 2.2 + 1.0\cdot 3\\\\
&=& 5.2
\end{array}\]
omptest.org als je een OMPT examen moet maken.