Hoofdstuk 11: Eenvoudige lineaire regressie: Meervoudige lineaire regressie
Dummy-Variabelen
Naast kwantitatieve voorspellende variabelen, is het ook mogelijk om categorische voorspellende variabelen in een regressie-model op te nemen. Dit gebeurt door één of meer dummy variabelen te maken.
#\phantom{0}#
Dummy-Variable
Een dummy-variabele is een binaire variabele gebruikt voor regressieanalyse om een bepaalde subgroep van de steekproef te vertegenwoordigen.
Een dummy-variabele neemt een waarde van #1# als een individu tot een bepaalde subgroep behoort en een waarde van #0# als het individu niet tot die subgroep behoort.
Als je een categorische voorspellingsvariabele toe wil voegen met twee niveaus aan het regressiemodel, is één dummy-variabele voldoende.
Als je een categorische voorspellingsvariabele toe wil voegen met meer dan twee niveaus aan het regressiemodel, moeten meerdere dummy-variabelen worden gemaakt. Voor een categorische variabele met #k# levels, moet je#k-1# dummy-variabelen toevoegen.
Voorbeeld: Het Toevoegen van een Binaire Variabele aan het Model
Beschouw de volgende regressievergelijking:
\[\hat{Y}=-12+9X_1\]
Waar #X_1# de leeftijd is van een persoon en #\hat{Y}# hun voorspelde inkomen is in 1000 euro.
Stel nu dat, naast de leeftijd van een persoon, je ook graag op wil nemen in het model of de persoon een Nederlandse nationaliteit heeft. Deze variabele kan twee waarden aannemen: of je bent Nederlands of je bent het niet.
Om deze variabele op te nemen in het model, kan een dummy-variabele #X_2# worden toegevoegd, die rekening houdt met een waarde van #1# als de persoon in kwestie Nederlands is en een waarde van #0# als de persoon een andere nationaliteit heeft.
Stel dat het nieuwe model wordt beschreven door de volgende regressievergelijking:
\[\hat{Y}=9X_1-12 + 5X_2\]
Hier is #b_2=5#. Dus als je een Nederlandse nationaliteit hebt, voorspelt het model dat u #5000# euro meer verdient dan een persoon van dezelfde leeftijd, maar met een andere nationaliteit.
Op basis van deze dummy variabele, is het mogelijk om twee modellen te construeren: een voor mensen met een Nederlandse nationaliteit en een voor mensen met een andere nationaliteit.
- Het voorspelde inkomen van iemand met een Nederlandse nationaliteit is:
- #\hat{Y_1}=9X_1-12+5\cdot1=9X-7#
- Het voorspelde inkomen van iemand met een andere nationaliteit is:
- #Y_2=9X_1-12+5\cdot0=9X-12#
Merk op dat beide vergelijkingen dezelfde regressiecoëfficiënt hebben maar verschillende snijpunten. De afstand tussen de twee regressielijnen blijft gelijk aan de coëfficiënt van de dummy variabele #b_2=5#.
Voorbeeld: Meerdere Dummy-Variabelen
Beschouw de volgende regressievergelijking:
\[\hat{Y}=-12+9X\]
Waar #X# de leeftijd is van een persoon en #\hat{Y}# hun voorspelde inkomen is in 1000 euro.
Stel nu dat, in plaats van de behandeling van leeftijd als een kwantitatieve variabele, je deze wilt behandelen als een categorische variabele door groepering van mensen in #4# leeftijdsgroepen: Kind, Tiener, Volwassen, en Ouder.
Aangezien er #4# leeftijdsgroepen (levels) zijn, moet je #k-1=4-1=3# dummy variabelen maken:
- De variabele #X_1# is één als de persoon een kind is en anders nul.
- De variabele #X_2# is één als de persoon een tiener is en anders nul.
- De variabele #X_3# is één als de persoon een volwassene is en anders nul
- Voor een oudere persoon, zijn #X_1, X_2# en #X_3# zijn allemaal nul.
Aan de hand van deze drie dummy-variabelen, kan je vier verschillende regressiemodellen maken, één voor elke leeftijdsgroep.
#X_1# | #X_2# | #X_3# | Regressie model | |
#\phantom{0}# Kind | 1 | 0 | 0 | #\phantom{00}# #\hat{Y}=b_0+b_1X_1# |
#\phantom{0}# Tiener | 0 | 1 | 0 | #\phantom{00}# #\hat{Y}=b_0+b_2X_2# |
#\phantom{0}# Volwassene | 0 | 0 | 1 | #\phantom{00}# #\hat{Y}=b_0+b_3X_3# |
#\phantom{0}# Ouder | 0 | 0 | 0 | #\phantom{00}# #\hat{Y}=b_0# |
omptest.org als je een OMPT examen moet maken.