Hoofdstuk 11: Eenvoudige lineaire regressie: Meervoudige lineaire regressie
Overfitting en Multicollineariteit
Met de opname van meer dan één voorspellingsvariabele in het regressiemodel, zijn er enkele bijkomende overwegingen waarmee rekening moet worden gehouden. Een van deze overwegingen is de gevolgen van overfitting van een regressie model.
#\phantom{0}#
Overfitting
Het toevoegen van meer variabelen aan een regressiemodel hoeft niet te betekenen dat het model beter wordt. In feite, dit kan het model erger maken. Dit heet overfitting.
Het gevaar van overfitting is dat het regressiemodel wordt afgestemd op de specifieke dataset gebruikt om het model mee te maken. Terwijl het toevoegen van meer variabelen de voorspellende kracht van het model kan bevorderen met betrekking tot de steekproef, kan dit heel goed invloed hebben met verminderd voorspellend vermogen ter gevolg ten opzichte van de algemene bevolking.
Als bijgevolg kan een overfit model lijden tot misleidende regressiecoëfficiënten, #p# waarden en #R^2# waarden.
#\phantom{0}#
Een ander ding om op te letten bij het uitvoeren van een meervoudige regressieanalyse is multicollineariteit.
#\phantom{0}#
Multicollineariteit
Multicollineariteit komt voor wanneer twee of meer van de voorspellende variabelen in het regressiemodel (zwaar) met elkaar worden gecorreleerd.
Hoewel multicollineariteit de voorspellende kracht van een regressiemodel niet in zijn geheel vermindert, vermindert het de nauwkeurigheid van de afzonderlijke partiële regressiecoëfficiënten ( #b_1 \ldots b_n# ).
Als twee onafhankelijke variabelen (bijv #X_1# en #X_2# ) sterk gecorreleerd zijn, dan kunnen de geassocieerde partiële regressiecoëfficiënten ( #b_1# en #b_2# ) niet nauwkeurig de verhouding weergeven tussen #Y# en #X_1# of #Y# en #X_2# die in de populatie bestaat.
omptest.org als je een OMPT examen moet maken.