Variantie begrijpen en berekenen | Uitleg met voorbeelden

De variantie (variance) is een maat die iets zegt over de spreiding in een dataset. Hoe meer de data verspreid zijn, hoe groter de variantie ten opzichte van het gemiddelde.

De variantie is een van de vier meest gebruikte spreidingsmaten (measures of variability), samen met:

Je bepaalt de variantie door het rekenkundig gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde te berekenen.

Variantie vs standaarddeviatie

De standaarddeviatie of standaardafwijking wordt afgeleid van de variantie en vertelt je hoe ver iedere waarde gemiddeld genomen van het gemiddelde verwijderd is. Het is de vierkantswortel van de variantie.

Beide maten zeggen iets over de spreiding in een verdeling, maar de eenheden verschillen:

  • De standaarddeviatie wordt uitgedrukt in dezelfde eenheid als de oorspronkelijke waarden (bijvoorbeeld meters).
  • De variantie wordt uitgedrukt in veel grotere eenheden (bijvoorbeeld vierkante meters).

Het is moeilijk om de variantie te interpreteren op gevoel, omdat de variantie-eenheden veel groter zijn dan die van de waarden in de dataset. Daarom wordt vaker de voorkeur gegeven aan de standaarddeviatie als spreidingsmaat.

De variantie is echter meer informatief dan de standaarddeviatie en wordt gebruikt voor statistische inferentie (het generaliseren van bevindingen, bijvoorbeeld van de steekproef naar de populatie).

Wie helpt jou met nakijken?

Betrouwbare hulptroepen vinden is niet makkelijk...

  • Familie
  • Vrienden
  • Studiegenoten
  • Scribbr

We staan altijd voor je klaar

Populatie- vs steekproefvariantie

Er worden verschillende formules gebruikt om de variantie te berekenen, afhankelijk van de dataverzameling. Je gebruikt een andere formule voor steekproefdata dan voor populatiedata.

Populatievariantie

Als je data hebt verzameld voor ieder lid van de populatie waarin je geïnteresseerd bent, kun je een exacte waarde berekenen voor de populatievariantie.

De formule voor de populatievariantie ziet er als volgt uit:

Formule Uitleg
\sigma^2 = \dfrac{\sum (X - \mu)^2}{N}
  • \sigma^2 = populatievariantie
  • \sum = som van …
  • Χ = iedere waarde
  • \mu = populatiegemiddelde
  • Ν = aantal waarden

Steekproefvariantie

Als je data verzamelt voor een steekproef, wordt de steekproefvariantie gebruikt om de populatievariantie te schatten of inferenties te maken.

De formule voor de steekproefvariantie ziet er als volgt uit:

Formule Uitleg
s^2= \dfrac{\sum (X - \bar{x})^2}{n - 1}
  • s^2 = steekproefvariantie
  • \sum = som van …
  • Χ = iedere waarde
  • \bar{x} = steekproefgemiddelde
  • n = aantal waarden

Bij steekproeven gebruiken we n – 1 in de formule, omdat het gebruik van n een vertekende schatting zou geven, waarbij de spreiding wordt onderschat. De steekproefvariantie is normaal gesproken lager dan de werkelijke populatievariantie.

Het verkleinen van de steekproef n tot n – 1 zorgt voor een grotere variantie, waardoor je een niet-vertekende (unbiased) schatting van de spreiding krijgt. Het is beter om de spreiding in steekproeven te overschatten dan te onderschatten.

Let op
Bij de formules voor de standaarddeviatie zorgt het gebruik van n – 1 er niet voor dat de bias verdwijnt. De standaarddeviatie bereken je door de wortel van de variantie te berekenen, maar dit is geen lineaire transformatie (zoals optellen of aftrekken). Daarom kan de schatting van de steekproef-standaarddeviatie nog steeds vertekend zijn.

Variantie berekenen

Je kunt de variantie met de hand berekenen of met behulp van onze variantie calculator hieronder.

Stappenplan om de variantie te berekenen

Je kunt de variantie automatisch berekenen met de software die je gebruikt (zoals SPSS), maar je kunt deze maat ook handmatig berekenen om meer inzicht te krijgen in de formule.

Er zijn 5 stappen om de variantie handmatig te berekenen. We gebruiken een kleine dataset met 6 waarden om de stappen te doorlopen.

Dataset
46 69 32 60 52 41

Stap 1: Berekenen het gemiddelde

Om het gemiddelde te berekenen, tel je alle waarden bij elkaar op en deel je dat getal (de som) door het aantal waarden.

Gemiddelde (x̅)
\bar{x} = \dfrac{(46 + 69 + 32 + 60 + 52 + 41)}{6} = 50

Stap 2: Bepaal de afstand tot het gemiddelde voor iedere waarde

Trek het gemiddelde af van iedere individuele score om de afstanden tot het gemiddelde te bepalen. De afstand tot het gemiddelde wordt ook wel de afwijking genoemd.

Aangezien = 50, bereken je de afstand door 50 van iedere score af te trekken.

Waarde Afstand tot het gemiddelde
46 46 – 50 = -4
69 69 – 50 = 19
32 32 – 50 = -18
60 60 – 50 = 10
52 52 – 50 = 2
41 41 – 50 = -9

Stap 3: Kwadrateer de afwijkingen tot het gemiddelde

Vermenigvuldig iedere afwijking tot het gemiddelde met zichzelf (kwadrateren). Hierdoor eindig je met alleen maar positieve getallen.

Gekwadrateerde afstanden tot het gemiddelde
(-4)2 = 4 × 4 = 16
192 = 19 × 19 = 361
(-18)2 = -18 × -18 = 324
102 = 10 × 10 = 100
22 = 2 × 2 = 4
(-9)2 = -9 × -9 = 81

Stap 4: Bereken de som van de kwadraten (sum of squares)

Tel alle gekwadrateerde afwijkingen bij elkaar op. Dit noem je de som van de kwadraten (sum of squares).

Som van de kwadraten
16 + 361 + 324 + 100 + 4 + 81 = 886

Stap 5: Deel de som van de kwadraten door n – 1 of N

Deel de som van de kwadraten door n – 1 (voor een steekproef) of N (voor een populatie).

In ons voorbeeld is sprake van een steekproef, dus we gebruiken  n – 1, waarbij n = 6.

Variantie
 \dfrac{886}{(6 - 1)} = \dfrac{886}{5} = 177.2

Lees waarom zo veel studenten Scribbr inschakelen

Ontdek nakijken op taal

Waarom is de variantie van belang?

Variantie is van belang, omdat:

  • parametrische statistische toetsen gevoelig zijn voor variantie;
  • je groepsverschillen kunt onderzoeken door de variantie van steekproeven te vergelijken.

Homogeniteit van variantie (homogeneity of variance)

Het is belangrijk om eerst naar de variantie te kijken, voordat je een parametrische toets uitvoert. Deze toetsen gaan meestal gepaard met assumpties of aannames, zoals homogeniteit van variantie (homogeneity of variance). In dat geval vereist een toets gelijke of vergelijkbare varianties om verschillende steekproeven te kunnen vergelijken. Dit wordt ook wel homoscedasticiteit genoemd.

Ongelijke varianties leveren vertekende (biased) en scheve (skewed) resultaten op. Daarom kun je in het geval van ongelijke varianties beter een non-parametrische toets uitvoeren.

Variantie gebruiken om groepsverschillen te beoordelen

Statistische toetsen, zoals een variantieanalyse (ook wel Analysis of Variance of ANOVA genoemd), gebruiken de steekproefvariantie om groepsverschillen te beoordelen. Ze gebruiken de varianties van de steekproeven namelijk om te beoordelen of de populaties waaruit ze afkomstig zijn van elkaar verschillen.

Onderzoeksvoorbeeld
Je wilt de hypothese toetsen dat een verschil in de frequentie waarmee overhoringen worden gegeven tot verschillende eindscores van studenten leidt. Je verzamelt de eindscores van drie groepen van elk 20 studenten die gedurende een semester vaak, soms of zelden overhoringen kregen.

  • Voorbeeld A: 1 keer per week
  • Voorbeeld B: 1 keer per 3 weken
  • Voorbeeld C: 1 keer per 6 weken

Om groepsverschillen te onderzoeken, voer je een ANOVA uit.

Bij een ANOVA worden de varianties tussen groepen en varianties binnen groepen vergeleken om te onderzoeken of de resultaten het best kunnen worden verklaard door groepsverschillen of door individuele verschillen.

Als de variantie tussen groepen groter is dan de variantie binnen een groep, verschillen de resultaten waarschijnlijk als gevolg van de experimentele conditie. Zo niet, dan kunnen de resultaten veroorzaakt zijn door individuele verschillen tussen leden uit de steekproef.

Onderzoeksvoorbeeld
De ANOVA beoordeelt of de verschillen in gemiddelde eindscores worden veroorzaakt door het verschil in frequentie waarmee de overhoringen zijn gegeven, of door individuele verschillen tussen studenten in elke groep.

De ANOVA levert een F-statistiek op. Dit is de verhouding tussen:

  • de variantie tussen groepen (between-group)
  • de variantie binnen de groepen (within-group).

De F-statistiek is groot, en de bijbehorende p-waarde laat zien dat de groepen significant van elkaar verschillen. Het verschil wordt dus veroorzaakt door het verschil in frequentie waarmee de overhoringen werden gegeven.

Veelgestelde vragen

Waarvoor wordt de variantie gebruikt?

Statistische toetsen, zoals een variantieanalyse (ook wel Analysis of Variance of ANOVA genoemd), gebruiken steekproefvariantie om groepsverschillen te beoordelen. Ze gebruiken de varianties van de steekproeven om te beoordelen of de populaties waaruit ze afkomstig zijn van elkaar verschillen.

Wat is het verschil tussen de standaarddeviatie en de variantie?

De standaarddeviatie of standaardafwijking wordt afgeleid van de variantie en vertelt je hoe ver iedere waarde gemiddeld genomen van het gemiddelde verwijderd is. Het is de vierkantswortel van de variantie.

Beide maten zeggen iets over de spreiding in een verdeling, maar de eenheden verschillen:

  • De standaarddeviatie wordt uitgedrukt in dezelfde eenheid als de oorspronkelijke waarden (bijvoorbeeld meters).
  • De variantie wordt uitgedrukt in veel grotere eenheden (bijvoorbeeld vierkante meters).
Wat zijn de vier meest gebruikte spreidingsmaten?

De spreiding (variability) wordt meestal bepaald met de volgende descriptieve statistieken:

  • Bereik (range): het verschil tussen de hoogste en laagste waarde uit de dataset.
  • Interkwartielafstand (interquartile range): het bereik van het middelste deel van de dataset.
  • Standaarddeviatie (standard deviation): de gemiddelde afstand tussen iedere waarde in de dataset en het gemiddelde.
  • Variantie (variance): de standaarddeviatie in het kwadraat.
Wat is homoscedasticiteit?

Homoscedasticiteit houdt in dat de variantie van een variabele gelijk is voor meerdere groepen of dat de variantie van de foutterm gelijk is.

Bij het uitvoeren van een t-toets of ANOVA, analyseer je de variantie tussen de meerdere groepen. Dit kan getoetst kan worden met Levene’s test.

Bij regressie moet de variantie van de foutterm gelijk zijn voor alle waarden van de verklarende variabele. Er mag dus niet meer of minder spreiding in de foutterm zijn voor grotere of lagere waarden van de verklarende variabele.

Citeer dit Scribbr-artikel

Als je naar deze bron wilt verwijzen, kun je de bronvermelding kopiëren of op “Citeer dit Scribbr-artikel” klikken om de bronvermelding automatisch toe te voegen aan onze gratis Bronnengenerator.

Merkus, J. (2021, 03 november). Variantie begrijpen en berekenen | Uitleg met voorbeelden. Scribbr. Geraadpleegd op 24 november 2024, van https://www.scribbr.nl/statistiek/variantie/

Wat vind jij van dit artikel?
Julia Merkus

Julia heeft onder andere een bachelor in Nederlandse Taal en Cultuur en twee masters in Linguistics en Taal- en Spraakpathologie. Na enkele jaren als editor, onderzoeker en docent schrijft ze nu artikelen over scripties, taalkunde, methodologie en statistiek om studenten te helpen.