Variantie begrijpen en berekenen | Uitleg met voorbeelden
De variantie (variance) is een maat die iets zegt over de spreiding in een dataset. Hoe meer de data verspreid zijn, hoe groter de variantie ten opzichte van het gemiddelde.
De variantie is een van de vier meest gebruikte spreidingsmaten (measures of variability), samen met:
- het bereik;
- de interkwartielafstand;
- de standaarddeviatie.
Je bepaalt de variantie door het rekenkundig gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde te berekenen.
Variantie vs standaarddeviatie
De standaarddeviatie of standaardafwijking wordt afgeleid van de variantie en vertelt je hoe ver iedere waarde gemiddeld genomen van het gemiddelde verwijderd is. Het is de vierkantswortel van de variantie.
Beide maten zeggen iets over de spreiding in een verdeling, maar de eenheden verschillen:
- De standaarddeviatie wordt uitgedrukt in dezelfde eenheid als de oorspronkelijke waarden (bijvoorbeeld meters).
- De variantie wordt uitgedrukt in veel grotere eenheden (bijvoorbeeld vierkante meters).
Het is moeilijk om de variantie te interpreteren op gevoel, omdat de variantie-eenheden veel groter zijn dan die van de waarden in de dataset. Daarom wordt vaker de voorkeur gegeven aan de standaarddeviatie als spreidingsmaat.
De variantie is echter meer informatief dan de standaarddeviatie en wordt gebruikt voor statistische inferentie (het generaliseren van bevindingen, bijvoorbeeld van de steekproef naar de populatie).
Populatie- vs steekproefvariantie
Er worden verschillende formules gebruikt om de variantie te berekenen, afhankelijk van de dataverzameling. Je gebruikt een andere formule voor steekproefdata dan voor populatiedata.
Populatievariantie
Als je data hebt verzameld voor ieder lid van de populatie waarin je geïnteresseerd bent, kun je een exacte waarde berekenen voor de populatievariantie.
De formule voor de populatievariantie ziet er als volgt uit:
Formule | Uitleg |
---|---|
|
Steekproefvariantie
Als je data verzamelt voor een steekproef, wordt de steekproefvariantie gebruikt om de populatievariantie te schatten of inferenties te maken.
De formule voor de steekproefvariantie ziet er als volgt uit:
Formule | Uitleg |
---|---|
|
Bij steekproeven gebruiken we n – 1 in de formule, omdat het gebruik van n een vertekende schatting zou geven, waarbij de spreiding wordt onderschat. De steekproefvariantie is normaal gesproken lager dan de werkelijke populatievariantie.
Het verkleinen van de steekproef n tot n – 1 zorgt voor een grotere variantie, waardoor je een niet-vertekende (unbiased) schatting van de spreiding krijgt. Het is beter om de spreiding in steekproeven te overschatten dan te onderschatten.
Variantie berekenen
Je kunt de variantie met de hand berekenen of met behulp van onze variantie calculator hieronder.
Stappenplan om de variantie te berekenen
Je kunt de variantie automatisch berekenen met de software die je gebruikt (zoals SPSS), maar je kunt deze maat ook handmatig berekenen om meer inzicht te krijgen in de formule.
Er zijn 5 stappen om de variantie handmatig te berekenen. We gebruiken een kleine dataset met 6 waarden om de stappen te doorlopen.
Dataset | |||||
---|---|---|---|---|---|
46 | 69 | 32 | 60 | 52 | 41 |
Stap 1: Berekenen het gemiddelde
Om het gemiddelde te berekenen, tel je alle waarden bij elkaar op en deel je dat getal (de som) door het aantal waarden.
Gemiddelde (x̅) |
---|
Stap 2: Bepaal de afstand tot het gemiddelde voor iedere waarde
Trek het gemiddelde af van iedere individuele score om de afstanden tot het gemiddelde te bepalen. De afstand tot het gemiddelde wordt ook wel de afwijking genoemd.
Aangezien x̅ = 50, bereken je de afstand door 50 van iedere score af te trekken.
Waarde | Afstand tot het gemiddelde |
---|---|
46 | 46 – 50 = -4 |
69 | 69 – 50 = 19 |
32 | 32 – 50 = -18 |
60 | 60 – 50 = 10 |
52 | 52 – 50 = 2 |
41 | 41 – 50 = -9 |
Stap 3: Kwadrateer de afwijkingen tot het gemiddelde
Vermenigvuldig iedere afwijking tot het gemiddelde met zichzelf (kwadrateren). Hierdoor eindig je met alleen maar positieve getallen.
Gekwadrateerde afstanden tot het gemiddelde |
---|
(-4)2 = 4 × 4 = 16 |
192 = 19 × 19 = 361 |
(-18)2 = -18 × -18 = 324 |
102 = 10 × 10 = 100 |
22 = 2 × 2 = 4 |
(-9)2 = -9 × -9 = 81 |
Stap 4: Bereken de som van de kwadraten (sum of squares)
Tel alle gekwadrateerde afwijkingen bij elkaar op. Dit noem je de som van de kwadraten (sum of squares).
Som van de kwadraten |
---|
16 + 361 + 324 + 100 + 4 + 81 = 886 |
Stap 5: Deel de som van de kwadraten door n – 1 of N
Deel de som van de kwadraten door n – 1 (voor een steekproef) of N (voor een populatie).
In ons voorbeeld is sprake van een steekproef, dus we gebruiken n – 1, waarbij n = 6.
Variantie |
---|
Waarom is de variantie van belang?
Variantie is van belang, omdat:
- parametrische statistische toetsen gevoelig zijn voor variantie;
- je groepsverschillen kunt onderzoeken door de variantie van steekproeven te vergelijken.
Homogeniteit van variantie (homogeneity of variance)
Het is belangrijk om eerst naar de variantie te kijken, voordat je een parametrische toets uitvoert. Deze toetsen gaan meestal gepaard met assumpties of aannames, zoals homogeniteit van variantie (homogeneity of variance). In dat geval vereist een toets gelijke of vergelijkbare varianties om verschillende steekproeven te kunnen vergelijken. Dit wordt ook wel homoscedasticiteit genoemd.
Ongelijke varianties leveren vertekende (biased) en scheve (skewed) resultaten op. Daarom kun je in het geval van ongelijke varianties beter een non-parametrische toets uitvoeren.
Variantie gebruiken om groepsverschillen te beoordelen
Statistische toetsen, zoals een variantieanalyse (ook wel Analysis of Variance of ANOVA genoemd), gebruiken de steekproefvariantie om groepsverschillen te beoordelen. Ze gebruiken de varianties van de steekproeven namelijk om te beoordelen of de populaties waaruit ze afkomstig zijn van elkaar verschillen.
Bij een ANOVA worden de varianties tussen groepen en varianties binnen groepen vergeleken om te onderzoeken of de resultaten het best kunnen worden verklaard door groepsverschillen of door individuele verschillen.
Als de variantie tussen groepen groter is dan de variantie binnen een groep, verschillen de resultaten waarschijnlijk als gevolg van de experimentele conditie. Zo niet, dan kunnen de resultaten veroorzaakt zijn door individuele verschillen tussen leden uit de steekproef.
Veelgestelde vragen
- Waarvoor wordt de variantie gebruikt?
-
Statistische toetsen, zoals een variantieanalyse (ook wel Analysis of Variance of ANOVA genoemd), gebruiken steekproefvariantie om groepsverschillen te beoordelen. Ze gebruiken de varianties van de steekproeven om te beoordelen of de populaties waaruit ze afkomstig zijn van elkaar verschillen.
- Wat is het verschil tussen de standaarddeviatie en de variantie?
-
De standaarddeviatie of standaardafwijking wordt afgeleid van de variantie en vertelt je hoe ver iedere waarde gemiddeld genomen van het gemiddelde verwijderd is. Het is de vierkantswortel van de variantie.
Beide maten zeggen iets over de spreiding in een verdeling, maar de eenheden verschillen:
- De standaarddeviatie wordt uitgedrukt in dezelfde eenheid als de oorspronkelijke waarden (bijvoorbeeld meters).
- De variantie wordt uitgedrukt in veel grotere eenheden (bijvoorbeeld vierkante meters).
- Wat zijn de vier meest gebruikte spreidingsmaten?
-
De spreiding (variability) wordt meestal bepaald met de volgende descriptieve statistieken:
- Bereik (range): het verschil tussen de hoogste en laagste waarde uit de dataset.
- Interkwartielafstand (interquartile range): het bereik van het middelste deel van de dataset.
- Standaarddeviatie (standard deviation): de gemiddelde afstand tussen iedere waarde in de dataset en het gemiddelde.
- Variantie (variance): de standaarddeviatie in het kwadraat.
- Wat is homoscedasticiteit?
-
Homoscedasticiteit houdt in dat de variantie van een variabele gelijk is voor meerdere groepen of dat de variantie van de foutterm gelijk is.
Bij het uitvoeren van een t-toets of ANOVA, analyseer je de variantie tussen de meerdere groepen. Dit kan getoetst kan worden met Levene’s test.
Bij regressie moet de variantie van de foutterm gelijk zijn voor alle waarden van de verklarende variabele. Er mag dus niet meer of minder spreiding in de foutterm zijn voor grotere of lagere waarden van de verklarende variabele.
Citeer dit Scribbr-artikel
Als je naar deze bron wilt verwijzen, kun je de bronvermelding kopiëren of op “Citeer dit Scribbr-artikel” klikken om de bronvermelding automatisch toe te voegen aan onze gratis Bronnengenerator.