Coefficient of Determination (R²) | Betekenis & Voorbeelden
De determinatiecoëfficiënt (coefficient of determination) is een getal tussen de 0 en 1 dat de mate aanduidt waarin een statistisch model in staat is een bepaalde uitkomst te voorspellen.
Determinatiecoëfficiënt (R²) | Interpretatie |
---|---|
0 | Het model voorspelt de uitkomst niet. |
Tussen 0 en 1 | Het model voorspelt de uitkomst gedeeltelijk. |
1 | Het model voorspelt de uitkomst volledig. |
De determinatiecoëfficiënt wordt meestal aangeduid met R², wat wordt uitgesproken als “r-kwadraat”. Bij een enkelvoudige lineaire regressie wordt in plaats van R² vaak een kleine letter r gebruikt (r²).
Wat is de determinatiecoëfficiënt?
De determinatiecoëfficiënt of coefficient of determination (R²) meet in hoeverre een statistisch model in staat is een bepaalde uitkomst te voorspellen. De uitkomst wordt gerepresenteerd door de afhankelijke variabele van het model.
De laagst mogelijke waarde van R² is 0 en de hoogst mogelijke waarde is 1. In het kort gezegd: hoe beter een model is in het maken van voorspellingen, hoe dichter de determinatiecoëfficiënt R² bij het getal 1 zal liggen.
R² is een maatstaf voor de aansluiting van het model bij de daadwerkelijke uitkomst (goodness of fit). Het is de proportie (het deel) van variantie in de afhankelijke variabele die wordt verklaard door het model.
Als je de data van je lineaire regressie in een grafiek zet, kun je hieruit meestal afleiden of de R² hoog of laag is. De onderstaande grafieken zijn gebaseerd op voorbeelddata:
- De observaties worden weergegeven als stippen.
- De voorspellingen van het model (de lijn van de beste pasvorm) worden getoond als een zwarte lijn.
- De afstand tussen de daadwerkelijke observaties en hun voorspelde waarde (de residuen) worden weergegeven als paarse lijnen.
Je kunt in de eerste dataset zien dat R² hoog is, en dat de observaties dan dicht bij de voorspellingen van het model liggen. In andere woorden: de meeste stippen liggen dicht bij de zwarte lijn:
Bij de tweede dataset kun je zien dat de R² laag is, en dat de observaties ver van de voorspellingen van het model verwijderd zijn. In andere woorden: de meeste stippen liggen ver van de zwarte lijn af:
De determinatiecoëfficiënt berekenen
Je kunt kiezen tussen twee formules om de determinatiecoëfficiënt (R²) van een enkelvoudige lineaire regressie te berekenen.
- De eerste formule is specifiek voor eenvoudige lineaire regressies
- De tweede formule kan worden gebruikt om de R² van veel verschillende typen statistische modellen te berekenen.
Formule 1: De correlatiecoëfficiënt gebruiken
Formule 2: De regressieresultaten gebruiken
Determinatiecoëfficiënt interpreteren
Je kunt de determinatiecoëfficiënt (R²) interpreteren als de proportie van de variantie in de afhankelijke variabele die het statistisch model voorspelt.
Een andere manier om erover na te denken is dat de R² het deel van de variantie is dat de afhankelijke en onafhankelijke variabelen met elkaar delen.
Je kunt ook zeggen dat de R² de proportie van de variantie is die wordt “verklaard” of “verantwoord” door het statistisch model. Het deel dat overblijft (1 – R²) is dan de variantie die niet wordt verklaard door het model.
R² als effectgrootte
Als laatste zou je de R² ook kunnen interpreteren als een effectgrootte: dit is een maat voor de sterkte van de relatie tussen de afhankelijke en onafhankelijke variabelen. Psycholoog en statisticus Jacob Cohen (1988) heeft de volgende vuistregels opgesteld voor enkelvoudige lineaire regressies:
Minimale waarde van determinatiecoëfficiënt (R²) | Interpretatie effectgrootte |
---|---|
.01 | Klein |
.09 | Medium of middelgroot |
.25 | Groot |
Let op: de R² op zichzelf zegt niets over een oorzakelijk verband.
Determinatiecoëfficiënt rapporteren
Als je besluit om de determinatiecoëfficiënt (R²) te gebruiken in je paper of scriptie, dien je deze te rapporteren in je onderzoeksresultaten. Je kunt de volgende regels gebruiken om statistieken te rapporteren in APA-stijl:
- Gebruik “r²” voor statistische modellen met één onafhankelijke variabele (zoals enkelvoudige lineaire regressies). Gebruik “R²” voor statistische modellen met meerdere onafhankelijke variabelen.
- Het is niet nodig om een referentie of formule toe te voegen, aangezien de determinatiecoëfficiënt een veelgebruikte statistiek is.
- Cursiveer r² en R² wanneer je hun waarden rapporteert (maar cursiveer de 2 niet).
- Voeg nooit een voorloopnul toe (een nul voor de decimale punt), want de determinatiecoëfficiënt kan niet groter zijn dan 1.
- Achter de decimale punt dienen twee significante getallen te staan.
- De determinatiecoëfficiënt wordt meestal gerapporteerd in combinatie met gerelateerde statistische resultaten, zoals de F-waarde, de vrijheidsgraden, en de p-waarde.
Lees waarom zo veel studenten Scribbr inschakelen
Valkuil van de determinatiecoëfficiënt
Een belangrijke valkuil van de determinatiecoëfficiënt (R²) is dat een hoge of lage R² lijkt te bepalen of een model goed of slecht is. Dit is echter niet waar.
Als je in een lineaire regressieanalyse meer onafhankelijke variabelen toevoegt om de afhankelijke variabele te verklaren, zal de determinatiecoëfficiënt (R²) altijd toenemen, ook als de onafhankelijke variabelen helemaal geen verband houden met de afhankelijke variabele.
Dit komt doordat de determinatiecoëfficiënt het deel van de variantie in de afhankelijke variabele weergeeft dat wordt voorspeld door het model. Hoe meer onafhankelijke variabelen je toevoegt, hoe meer variantie er verklaard lijkt te worden.
Hierdoor kan de mate van verklaarbaarheid van het model overschat worden.
Daarom is de aangepaste determinatiecoëfficiënt (R2) ontwikkeld, die aantoont welk deel van de variantie in de afhankelijke variabele door alle onafhankelijke variabelen gezamenlijk wordt voorspeld door het model.
Oefenvragen over de coefficient of determination
Veelgestelde vragen over de coefficient of determination
- Wat is de definitie van de determinatiecoëfficiënt (R²)?
-
De determinatiecoëfficiënt (R²) is een getal tussen de 0 en 1 dat de mate aanduidt waarin een statistisch model in staat is een bepaalde uitkomst te voorspellen. Je kunt de R² interpreteren als de proportie (het deel) van de variantie in de afhankelijke variabele die wordt voorspeld door het statistisch model.
- Wat is de formule voor de determinatiecoëfficiënt?
-
Er zijn twee formules die je kan gebruiken om de determinatiecoëfficiënt (R²) van een enkelvoudige lineaire regressie te berekenen.
Formule 1:
Formule 2:
- Hoe bereken ik de determinatiecoëfficiënt (R²) in softwareprogramma R?
-
Je kunt de samenvattingsfunctie() (ook wel summary () function) gebruiken om R² (coefficient of determination) van een lineair model weer te geven in R. Onderaan de output zie je “R-kwadraat” (“R-squared”) staan.
- Hoe bereken ik de determinatiecoëfficiënt (R²) in Excel?
-
Je kunt de RSQ() functie gebruiken om R² (coefficient of determination) in Excel te berekenen. Als je afhankelijke variabele in kolom A staat, en je onafhankelijke variabele in kolom B, klik je op een willekeurige lege cel en typ je: “RSQ(A:A,B:B)”.
- Wat is de coefficient of determination?
-
De coefficient of determination is de Engelse term voor de determinatiecoëfficiënt.
De determinatiecoëfficiënt (R²) is een getal tussen de 0 en 1 dat de mate aanduidt waarin een statistisch model in staat is een bepaalde uitkomst te voorspellen.
Citeer dit Scribbr-artikel
Als je naar deze bron wilt verwijzen, kun je de bronvermelding kopiëren of op “Citeer dit Scribbr-artikel” klikken om de bronvermelding automatisch toe te voegen aan onze gratis Bronnengenerator.