Hoe bereken ik de determinatiecoëfficiënt (R²) in Excel?
Je kunt de RSQ() functie gebruiken om R² (coefficient of determination) in Excel te berekenen. Als je afhankelijke variabele in kolom A staat, en je onafhankelijke variabele in kolom B, klik je op een willekeurige lege cel en typ je: “RSQ(A:A,B:B)”.
Gerelateerde artikelen
Veelgestelde vragen: Statistiek
- Hoe wordt statistische significantie berekend in een ANOVA?
-
Bij een ANOVA is de nulhypothese dat er geen verschil is tussen de groepsgemiddelden. Als een groep significant verschilt van het algemene groepsgemiddelde, dan zal de ANOVA een statistisch significant resultaat rapporteren.
Significante verschillen tussen groepsgemiddelden worden berekend met behulp van een F-statistiek, die de verhouding weergeeft tussen de gemiddelde som van de kwadraten (de variantie die door de onafhankelijke variabele wordt verklaard) en de gemiddelde kwadratische fout (de variantie die overblijft).
Als de F-statistiek hoger is dan de kritieke waarde (de waarde van F die overeenkomt met je alfa-waarde, meestal 0.05), dan wordt het verschil tussen groepen statistisch significant geacht.
- Wat is een factoriële ANOVA?
-
Een factoriële ANOVA is elke ANOVA die meer dan één categorische onafhankelijke variabele gebruikt. Een two-way ANOVA is een soort factoriële ANOVA.
Enkele voorbeelden van scenario’s waarin je factoriële ANOVA’s gebruikt, zijn:
- Het toetsen van de gecombineerde effecten van vaccinatie (gevaccineerd of niet gevaccineerd) en gezondheidsstatus (gezond of al bestaande aandoening) op de mate van griepinfectie in een populatie.
- Het toetsen van de effecten van burgerlijke staat (gehuwd, ongehuwd, gescheiden, weduwnaar), beroepsstatus (zelfstandig, werkend, werkloos, gepensioneerd) en familiegeschiedenis (geen familiegeschiedenis, enige familiegeschiedenis) op de incidentie van depressie in een populatie.
- Het toetsen van effecten van het soort voeding (soort A, B of C) en stalbezetting (niet vol, enigszins vol, zeer vol) op het eindgewicht van kippen in een commercieel landbouwbedrijf.
- Wat is het verschil tussen een one-way ANOVA en een two-way ANOVA?
-
Het enige verschil tussen een one-way ANOVA en een two-way ANOVA is het aantal onafhankelijke variabelen. Een one-way ANOVA heeft één onafhankelijke variabele, terwijl een two-way ANOVA er twee heeft.
- One-way ANOVA: Toetst de relatie tussen het merk schoen (Nike, Adidas, Saucony, Hoka) en de finishtijd van een marathon.
- Two-way ANOVA: Toetst de relatie tussen het merk schoen (Nike, Adidas, Saucony, Hoka), leeftijdsgroep van de loper (junior, senior, master) en de finishtijd van een marathon.
Alle ANOVA’s zijn bedoeld om te toetsen op verschillen tussen drie of meer groepen. Als je alleen op een verschil tussen twee groepen wilt testen, gebruik dan een t-toets.
- Wat betekent lambda (λ) in de formule van de Poissonverdeling?
-
In de formule van de Poissonverdeling is lambda (λ) het gemiddelde aantal gebeurtenissen binnen een bepaald tijds- of ruimte-interval. Bijvoorbeeld: λ = 0.748 overstromingen per jaar.
- Wat betekent “e” in de formule van de Poissonverdeling?
-
De e in de formule van de Poissonverdeling staat voor het getal 2.718. Dit getal wordt de constante van Euler genoemd. Je kunt e simpelweg vervangen door 2.718 als je een kans van de Poissonverdeling berekent. De constante van Euler is een heel nuttig getal en is vooral belangrijk in de wiskunde.
- Wanneer moet ik een outlier verwijderen uit mijn dataset?
-
Je kunt outliers het beste alleen verwijderen als je daar een goede reden voor hebt.
Sommige uitschieters vertegenwoordigen natuurlijke variatie in de populatie en deze mogen niet worden verwijderd uit je dataset. Dit zijn echte uitschieters.
Andere uitschieters zijn problematisch en moeten worden verwijderd uit je dataset. Deze uitschieters zijn meetfouten, invoer- of verwerkingsfouten, of data uit een niet-representatieve steekproef.
- How vind ik outliers in mijn data?
-
Je kunt kiezen uit vier manieren om outliers te detecteren:
- Het sorteren van je waarden van laag naar hoog en het controleren van minimum- en maximumwaarden.
- Het visualiseren van je data met een boxplot en zoeken naar uitschieters.
- De interkwartielafstand gebruiken om de grenzen voor je data te vinden.
- Statistische toetsen uitvoeren om extreme waarden te identificeren.
- Waarom zijn outliers belangrijk?
-
Outliers (uitschieters) kunnen een grote impact hebben op je statistische analyses. Ook kunnen ze de resultaten van een hypothesetoetsing vertekenen als ze onjuist zijn.
Deze extreme waarden kunnen ook de statistische power van je toets beïnvloeden, waardoor het moeilijk wordt een echt effect op te sporen, als er wel een effect is (Type II-fout).
- Waarom heet de t-verdeling ook de Student’s t-verdeling?
-
De t-verdeling werd voor het eerst beschreven door statisticus William Sealy Gosset onder het pseudoniem “Student”.
- Hoe bereken ik het betrouwbaarheidsinterval van een gemiddelde met de kritieke waarde van t?
-
Om een betrouwbaarheidsinterval van een gemiddelde te berekenen met behulp van de kritieke waarde van t, volg je deze vier stappen:
- Kies het significantieniveau op basis van het gewenste betrouwbaarheidsniveau. Het meest gebruikelijke betrouwbaarheidsniveau is 95%, wat overeenkomt met α = .05 in de tweezijdige t-tabel.
- Zoek de kritieke waarde van t in de tweezijdige t-tabel.
- Vermenigvuldig de kritieke waarde van t met .
- Tel deze waarde bij het gemiddelde op om de bovengrens van het betrouwbaarheidsinterval te berekenen, en trek deze waarde van het gemiddelde af om de ondergrens van het betrouwbaarheidsinterval te berekenen.
- Hoe vind ik de kritieke waarde van t in Excel?
-
Je kunt de T.INV() functie gebruiken om de kritieke waarde van t te vinden voor eenzijdige toetsen in Excel. Voor tweezijdige toetsen gebruik je de T.INV.2T() functie.
- Hoe vind ik de kritieke waarde van t in R?
-
Je kunt de qt() functie gebruiken om de kritieke waarde van t te vinden in R. De functie geeft de kritieke waarde van t voor de eenzijdige toets. Als je de kritieke waarde van t voor een tweezijdige toets wilt, deel je het significantieniveau door twee.
- Hoe bereken ik de Pearson correlatiecoëfficiënt in Excel?
-
Je kunt de PEARSON() functie gebruiken om de Pearson correlatiecoëfficiënt (r) in Excel te berekenen. Als je variabelen in de kolommen A en B staan, klik je op een lege cel en typ je “PEARSON(A:A, B:B)”.
Er is geen functie om de significantie van de correlatie direct te berekenen.
- Hoe bereken ik de Pearson correlatiecoëfficiënt in R?
-
Je kunt de cor() functie gebruiken om de Pearson correlatiecoëfficiënt (r) in R te berekenen. Om de significantie van de correlatie te testen, kun je de cor.test() functie gebruiken.
- Wanneer gebruik ik de Pearson correlatiecoëfficiënt?
-
Je kunt de Pearson correlatiecoëfficiënt (r) gebruiken als je een correlatie tussen twee variabelen wilt meten en (1) het verband tussen de variabelen lineair is, (2) beide variabelen kwantitatief zijn, (3) beide variabelen continu van aard zijn, (4) normaal verdeeld zijn en (5) geen uitschieters hebben.
- Hoe toets ik een hypothese met behulp van de kritieke waarde van t?
-
Om een hypothese te toetsen met behulp van de kritieke waarde van t, volg je deze vier stappen:
- Bereken de t-waarde en vrijheidsgraden van je steekproef.
- Zoek de kritieke waarde van deze t-waarde in de t-tabel die hoort bij de juiste vrijheidsgraden.
- Bepaalde of de (absolute) t-waarde groter is dan de kritieke waarde van t.
- Verwerp de nulhypothese als de t-waarde van de steekproef groter is dan de kritieke waarde van t. Zo niet, dan verwerp je de nulhypothese niet.
- Wat gebeurt er met de vorm van de chi-kwadraatverdeling als de vrijheidsgraden toenemen?
-
Als er slechts één of twee vrijheidsgraden zijn, heeft de chi-kwadraatverdeling de vorm van een omgekeerde “J”.
Als er drie of meer vrijheidsgraden zijn, heeft de verdeling de vorm van een rechtsscheve bult (hump).
Naarmate het aantal vrijheidsgraden verder toeneemt, wordt de bult minder rechtsscheef en verschuift de piek van de bult naar rechts. De verdeling gaat steeds meer lijken op een normale verdeling.
- Wat gebeurt er met de vorm van de Student’s t-verdeling als de vrijheidsgraden toenemen?
-
Als de vrijheidsgraden toenemen, wordt de (student’s) t-verdeling minder leptokurtisch, wat betekent dat de kans op extreme waarden afneemt.
- Wat zijn de drie soorten kurtosis?
-
De drie soorten kurtosis zijn:
- Mesokurtosis: Een excess kurtosis van 0. Normale verdelingen zijn mesokurtisch.
- Platykurtosis: Een negatieve excess kurtosis. Platykurtische verdelingen hebben een dunne staart, wat betekent dat ze weinig uitschieters hebben.
- Leptokurtosis: Een positieve excess kurtosis. Leptokurtische verdelingen hebben een dikke staart, wat betekent dat ze veel uitschieters hebben.
- Wat is het verschil tussen een onderzoekshypothese en een statistische hypothese?
-
Een onderzoekshypothese is jouw verwachte antwoord op de onderzoeksvraag. De onderzoekshypothese bevat meestal een verklaring (x beïnvloedt y omdat…).
Een statistische hypothese is een wiskundige uitspraak over een populatieparameter. Statistische hypothesen komen altijd in paren: de nul- en alternatieve hypothese.
In een goede onderzoeksopzet komen de nul- en alternatieve hypothese logisch overeen met de onderzoekshypothese. Soms hoef je alleen de alternatieve hypothese te formuleren.
- Welke symbolen worden gebruikt om de alternatieve hypothese te weergeven?
-
De alternatieve hypothese wordt vaak afgekort tot Ha of H1. Als de alternatieve hypothese wordt beschreven met wiskundige symbolen, bevat deze altijd een ongelijkheidssymbool (meestal ≠, maar soms ook < of >).
- Welke symbolen worden gebruikt om de nulhypothese te weergeven?
-
De nulhypothese wordt vaak afgekort tot H0. Als de nulhypothese wordt beschreven met wiskundige symbolen, bevat deze altijd een gelijkheidssymbool (meestal =, maar soms ook ≥ of ≤).
- Wat is het verschil tussen een kwantitatieve en categorische variabele?
-
Er kan een onderscheid worden gemaakt tussen kwantitatieve en categorische variabelen:
- Bij kwantitatieve variabelen representeren de data hoeveelheden (zoals een lengte, gewicht, leeftijd).
- Bij categorische variabelen representeren de data groepen, zoals een ranking (bijvoorbeeld de eindposities bij het songfestival), classificaties (bijvoorbeeld kledingmerken), en binaire verdelingen (zoals kop of munt).
- Wat is het verschil tussen een chi-kwadraattoets en een t-toets?
-
Zowel de chi-kwadraattoets en een t-toets kunnen worden gebruikt om het verschil tussen twee groepen te onderzoeken.
Echter, een t-toets wordt gebruikt als je een kwantitatieve afhankelijke variabele hebt en een categorische onafhankelijke variabele (met twee groepen). Een chi-kwadraattoets voor samenhang wordt gebruikt bij twee categorische variabelen.
- Wat zijn de twee belangrijkste soorten chi-kwadraattoetsen?
-
De twee meest belangrijke chi-kwadraattoetsen zijn:
- De chi-kwadraattoets voor verdelingen (chi-square goodness of fit test)
- De chi-kwadraattoets voor samenhang (chi-square test of independence)
- Wat zijn de drie soorten skewness (scheefheid)?
-
De drie soorten skewness (scheefheid) zijn:
- Rechtsscheef (right skew). Een rechtsscheve verdeling (ook wel positief-scheve verdeling genoemd) is langer aan de rechterkant van de piek dan aan de linkerkant.
- Linksscheef (left skew). Een linksscheve verdeling (ook wel negatief-scheve verdeling genoemd) is langer aan de linkerkant van de piek dan aan de rechterkant.
- Zero skew. Een verdeling met zero skew (nul scheefheid) is symmetrisch, wat inhoudt dat de linker- en rechterkant spiegelbeelden van elkaar zijn.
- Wat is het verschil tussen skewness en kurtosis?
-
Skewness en kurtosis zijn beide belangrijke maten voor de vorm van een verdeling.
- Skewness (scheefheid) meet de asymmetrie van een verdeling.
- Kurtosis (welving) meet de dikte van de staart van een verdeling ten opzichte van de normale verdeling.
- Hoe bereken je een betrouwbaarheidsinterval?
-
Om het betrouwbaarheidsinterval te berekenen, moet je het volgende weten:
- De puntschatting waarvoor je het betrouwbaarheidsinterval opzet
- De kritieke waarden voor de teststatistiek
- De standaarddeviatie van je steekproef
- De steekproefgrootte
Als je al deze dingen weet, kun je het betrouwbaarheidsinterval voor je schatting berekenen door ze in de formule voor het betrouwbaarheidsinterval te zetten die overeenkomt met je data. Wat de formule precies is hangt af van het type schatting (e.g., een gemiddelde of een proportie) en van de verdeling van je data.
- Wat betekent het als mijn betrouwbaarheidsinterval een nul bevat?
-
Als je betrouwbaarheidsinterval voor het verschil tussen groepen een nul bevat, betekent dit dat er een grote kans bestaat dat je geen verschil vindt tussen de groepen als je het experiment nog een keer uitvoert.
Als je betrouwbaarheidsinterval voor een correlatie of regressie nul bevat, betekent dit dat er een grote kans bestaat dat je geen correlatie vindt in je data als je het experiment nog een keert uitvoert.
In beide gevallen zul je ook een hoge p-waarde vinden bij je statistische test. Dit houdt in dat je resultaten zouden kunnen voorkomen onder de nulhypothese. Dit zou betekenen dat de resultaten geen relatie tussen de variabelen ondersteunen.
- Wat is een kritieke waarde?
-
Een kritieke waarde is een waarde van de teststatistiek die de boven- en ondergrens van het betrouwbaarheidsinterval definieert, of de drempelwaarde van statistische significantie in een statistische test. Het beschrijft hoe ver je van het gemiddelde van de verdeling af moet liggen om een bepaalde hoeveelheid van de totale variatie in de data te dekken (i.e., 90%, 95%, 99%).
Als je zowel een 95%-betrouwbaarheidsinterval als een drempelwaarde van statistische significantie van p = 0.05 aanhoudt, dan zullen je kritieke waarden in beide gevallen identiek zijn.
- Wat is het verschil tussen een betrouwbaarheidsinterval en een betrouwbaarheidsniveau?
-
Het betrouwbaarheidsinterval bestaat uit de boven- en ondergrens van de schatting die je verwacht te vinden bij een gegeven betrouwbaarheidsniveau.
Het betrouwbaarheidsniveau (confidence level) is het percentage van de keren dat je verwacht in de buurt van dezelfde schatting te komen als je je experiment nog een keer uitvoert of opnieuw op dezelfde manier een steekproef uit de populatie haalt.
- Wat zijn z-waarden en t-waarden?
-
De z-waarde en t-waarde (ook wel z-score en t-score) geven aan hoeveel standaarddeviaties je van het gemiddelde van de verdeling verwijderd bent, mits je data een z-verdeling of een t-verdeling volgen.
Als uit je test een z-score van 2.5 naar voren komt, betekent dit dat je schatting 2.5 standaarddeviaties van het gemiddelde afwijkt.
Het voorspelde gemiddelde en de voorspelde verdeling van je schatting worden bepaald door de nulhypothese van de statistische test die je uitvoert. Hoe meer standaarddeviaties van het gemiddelde je schatting afwijkt, hoe kleiner de kans dat je schatting daadwerkelijk onder je nulhypothese heeft kunnen plaatsvinden.
- Wat is een standaardnormale verdeling?
-
De standaardnormale verdeling, ook wel z-verdeling genoemd, is een speciale normale verdeling waarbij het gemiddelde gelijk is aan 0 en de standaarddeviatie gelijk is aan 1.
Elke normale verdeling kan worden omgezet in de standaardnormale verdeling door de individuele waarden om te zetten in z-waarden (z-scores). In een z-verdeling geven z-scores aan hoeveel standaarddeviaties elke waarde van het gemiddelde afligt.
- Hoe bereken ik de determinatiecoëfficiënt (R²) in softwareprogramma R?
-
Je kunt de samenvattingsfunctie() (ook wel summary () function) gebruiken om R² (coefficient of determination) van een lineair model weer te geven in R. Onderaan de output zie je “R-kwadraat” (“R-squared”) staan.
- Wat is de formule voor de determinatiecoëfficiënt?
-
Er zijn twee formules die je kan gebruiken om de determinatiecoëfficiënt (R²) van een enkelvoudige lineaire regressie te berekenen.
Formule 1:
Formule 2:
- Wat is de definitie van de determinatiecoëfficiënt (R²)?
-
De determinatiecoëfficiënt (R²) is een getal tussen de 0 en 1 dat de mate aanduidt waarin een statistisch model in staat is een bepaalde uitkomst te voorspellen. Je kunt de R² interpreteren als de proportie (het deel) van de variantie in de afhankelijke variabele die wordt voorspeld door het statistisch model.
- Hoe weet je of een waarde een parameter of statistiek is?
-
Het is altijd duidelijk of een getal een parameter of statistiek is. Om te bepalen met welke van de twee je te maken hebt, kun jezelf de volgende vragen stellen:
- Beschrijft het getal een gehele, complete populatie waarbij elk lid kan worden bereikt voor de dataverzameling?
- Is het mogelijk om binnen een redelijke termijn data voor ieder lid van de populatie te verzamelen?
Als het antwoord op beide vragen ja is, is het getal waarschijnlijk een parameter. Als het antwoord op een van de vragen nee is, is de kans groter dat het om een statistiek gaat.
- Wat is het verschil tussen een parameter en statistiek?
-
Een parameter is een waarde die een hele populatie beschrijft (bijvoorbeeld het populatiegemiddelde), terwijl een statistiek een getal is dat een steekproef beschrijft (bijvoorbeeld het steekproefgemiddelde).
- Hoe verklein je het risico op een Type II-fout?
-
Er bestaat een omgekeerd evenredig verband tussen het risico op een Type II-fout en de statistische power van een onderzoek. De power is de mate waarin een toets een daadwerkelijk bestaand effect correct kan detecteren.
Om het risico op een Type II-fout (indirect) te verkleinen, kun je de steekproef vergroten of het significantieniveau verhogen, omdat je zo de statistische power vergroot.
- Hoe verklein je het risico op een Type I-fout?
-
Het risico op een Type I-fout is gelijk aan het significantieniveau dat je kiest voor je onderzoek. Je vergelijkt de p-waarde met dit niveau om te bepalen of je resultaten statistisch significant zijn.
Het significantieniveau is meestal 0.05 of 5%. Dit betekent dat er een kans van 5% is dat de gevonden resultaten zouden voorkomen als de nulhypothese daadwerkelijk waar zou zijn.
Om het risico op een Type I-fout te verkleinen, verlaag je het significantieniveau alfa. Hiermee vergroot je wel het risico op een Type II-fout.
- Wat zijn Type I-fouten en Type II-fouten?
-
Een Type I-fout is een fout-positieve conclusie (false positive), terwijl een Type II-fout een fout-negatieve conclusie (false negative) is.
- Als je een Type I-fout maakt, verwerp je de nulhypothese ten onrechte.
- Als je een Type II-fout maakt, verwerp je de nulhypothese ten onrechte niet.
- Wat is het verschil tussen de t-verdeling en de standaardnormale verdeling?
-
De t-verdeling is een meer conservatieve vorm van de standaardnormale verdeling (ook wel z-verdeling of standard normal distribution genoemd). Dit betekent dat de t-verdeling een lagere kansdichtheid geeft voor het centrum en een hogere kansdichtheid voor de staarten dan de standaard normaleverdeling.
- Wat is een t-score?
-
Een t-score is het aantal standaarddeviaties van het gemiddelde in een t-verdeling. Je kunt een t-score opzoeken in een t-tabel of een online calculator voor de t-score gebruiken.
Bij statistiek worden t-scores voornamelijk gebruikt om de volgende waarden te bepalen:
- De boven- en ondergrenzen van een betrouwbaarheidsinterval als de data ongeveer normaal verdeeld zijn.
- De p-waarde van de teststatistiek voor t-toetsen en regressieanalyses.
- Wat is een t-verdeling?
-
De t-verdeling (ook wel t-distribution of Student’s t-distribution genoemd) wordt gebruikt als de data bij benadering normaal verdeeld zijn (en dus een klokvorm volgen), maar waarbij de populatievariantie onbekend is. De variantie in een t-verdeling wordt geschat op basis van het aantal vrijheidsgraden van de dataset (totaal aantal waarnemingen min 1).
De t-verdeling is een variant op de normale verdeling, maar deze wordt gebruikt voor kleinere steekproeven, waarbij de variantie onbekend is.
- Wat is statistische power (statistical power)?
-
Statistische power (statistical power) verwijst naar de waarschijnlijkheid dat een hypothesetoets een echt effect vaststelt als dat effect er is. Dit noem je ook wel het onderscheidend vermogen. Een toets met veel statistische power is beter in staat een Type II-fout (false negative) te voorkomen.
Als je onderzoek onvoldoende power heeft, kan het voorkomen dat je geen statistisch significant resultaat vindt, zelfs als dit wel aanwezig is en praktische relevantie heeft. Hierdoor zou je ten onrechte de nulhypothese behouden.
- Hoe bereken je de effectgrootte?
-
Er zijn tientallen maten voor de effectgrootte. De maten die het vaakst gebruikt worden zijn Cohen’s d en Pearson’s r. Cohen’s d meet de grootte van een verschil tussen twee groepen, terwijl Pearson’s r de sterkte van een relatie tussen twee variabelen meet.
Je kunt ze berekenen met behulp van statistische software (zoals SPSS) of op basis van de formules.
- Wat is het verschil tussen statistische en praktische significantie?
-
Statistische significantie laat zien dat een effect, verschil of relatie bestaat in een onderzoek, terwijl praktische significantie (relevantie) laat zien dat het effect groot genoeg is om betekenisvol te zijn in de echte wereld.
De statistische significantie wordt gerapporteerd met behulp van p-waardes, terwijl de praktische relevantie wordt uitgedrukt met de effectgrootte.
- Wat is een effectgrootte?
-
De effectgrootte laat zien hoe betekenisvol de relatie tussen variabelen of het verschil tussen groepen is. Het zegt iets over de praktische relevantie (ook wel praktische significantie genoemd) van een onderzoeksresultaat.
Een klein effect heeft weinig praktische implicaties, terwijl een groot effect juist veel praktische implicaties kan hebben.
- Wat is het doel van hypothesetoetsing?
-
Met hypothesetoetsing bereken je hoe waarschijnlijk het is dat een patroon of verband tussen onafhankelijke en afhankelijke variabelen door toeval zou kunnen zijn ontstaan.
Bij kwantitatief onderzoek analyseer je de data door middel van hypothesetoetsing van de nulhypothese en alternatieve hypothese. Je voert een statistische analyse uit en vergelijkt de verkregen p-waarde met het vooraf gekozen significantieniveau. Zo bepaal je of een verband, effect of verschil statistisch significant is.
- Wat is een significantieniveau?
-
Het significantieniveau (alfa, α) geeft de maximale kans weer dat je de nulhypothese ten onrechte verwerpt (een Type I-fout). Je kiest het significantieniveau zelf voordat je een statistische toets uitvoert. Meestal kies je voor een α van 0.05 (5%) of 0.01 (1%).
- Wat is praktische significantie of praktische relevantie?
-
Praktische significantie (ook wel praktische relevantie genoemd) laat zien of de onderzoeksuitkomst belangrijk genoeg is om betekenisvol te zijn in de echte wereld. Voor deze vorm van significantie rapporteer je de effectgrootte van het onderzoek.
De effectgrootte wordt gerapporteerd als aanvulling op de statistische significantie.
- Wat is klinische significantie of klinische relevantie?
-
Klinische significantie (ook wel klinische relevantie genoemd) is relevant voor interventie- en behandelingsstudies. Een behandeling wordt als klinisch significant beschouwd als deze het leven van patiënten tastbaar of substantieel verbetert.
De klinische significantie vormt een aanvulling op statistische significantie.
- Kun je op basis van de p-waarde aannemen dat de alternatieve hypothese waar is?
-
Nee, de p-waarde zegt niets over de alternatieve hypothese. De p-waarde geeft aan hoe waarschijnlijk het is dat de data die je hebt gevonden zouden voorkomen als de nulhypothese waar zou zijn.
Als de p-waarde onder je grenswaarde (vaak p < 0.05) valt, kun je de nulhypothese verwerpen, maar dit betekent niet per se dat je alternatieve hypothese waar is.
- Hoe bereken je een p-waarde (p-value)?
-
Je berekent p-waarden meestal automatisch met het programma dat je gebruikt voor je statistische analyse (zoals SPSS of R). Je kunt de p-waarde ook schatten met behulp van tabellen voor de teststatistiek die je gebruikt.
P-waarden vertellen je hoe vaak een teststatistiek waarschijnlijk zou voorkomen onder de nulhypothese, op basis van de positie van de teststatistiek in de nulverdeling.
Als de teststatistiek ver verwijderd is van het gemiddelde van de nulverdeling, dan is de p-waarde klein. Dit laat zien dat het niet waarschijnlijk is dat de teststatistiek zou voorkomen als de nulhypothese waar is.
- Wat is het verschil tussen de standaarddeviatie en de variantie?
-
De standaarddeviatie of standaardafwijking wordt afgeleid van de variantie en vertelt je hoe ver iedere waarde gemiddeld genomen van het gemiddelde verwijderd is. Het is de vierkantswortel van de variantie.
Beide maten zeggen iets over de spreiding in een verdeling, maar de eenheden verschillen:
- De standaarddeviatie wordt uitgedrukt in dezelfde eenheid als de oorspronkelijke waarden (bijvoorbeeld meters).
- De variantie wordt uitgedrukt in veel grotere eenheden (bijvoorbeeld vierkante meters).
- Waarvoor wordt de variantie gebruikt?
-
Statistische toetsen, zoals een variantieanalyse (ook wel Analysis of Variance of ANOVA genoemd), gebruiken steekproefvariantie om groepsverschillen te beoordelen. Ze gebruiken de varianties van de steekproeven om te beoordelen of de populaties waaruit ze afkomstig zijn van elkaar verschillen.
- Wat is het verschil tussen Cramer’s V en chi-kwadraat?
-
Cramer’s V is een gestandaardiseerde maat voor de samenhang tussen variabelen, terwijl chi-kwadraat geen gestandaardiseerde maat is. Met de chi-kwadraattoets kun je enkel beoordelen of het verschil tussen twee of meerdere verdelingen van elkaar verschillen.
Door de waarde voor chi-kwadraat om te zetten in Cramer’s V, kun je waarden met elkaar vergelijken.
- Hoe wordt Cramer’s V geïnterpreteerd?
-
Je kunt Cramer’s V interpreteren met behulp van de volgende vuistregels:
Waarde Cramer’s V Sterkte samenhang 0 Geen samenhang 0.1 Zwakke samenhang 0.3 Gemiddelde (matige) samenhang 0.5 Sterke samenhang 1 Perfecte samenhang In de praktijk komt de waarde 0 of 1 eigenlijk nooit voor.
- Waarvoor wordt Cramer’s V gebruikt?
-
Cramer’s V is een maat voor de effectgrootte die informatie geeft over de statistische samenhang tussen twee of meer variabelen van nominaal niveau. De waarde ligt tussen 0 en 1 en geeft aan hoe sterk twee categorische variabelen samenhangen.
- Wanneer moet je de interkwartielafstand gebruiken?
-
De interkwartielafstand is de beste spreidingsmaat voor scheve verdelingen of datasets met uitbijters (ook wel uitschieters of outliers genoemd).
De maat is gebaseerd op waarden uit de middelste helft van de dataset, waardoor het onwaarschijnlijk is dat de interkwartielafstand wordt beïnvloed door extreme waarden.
- Wat is het verschil tussen het bereik en de interkwartielafstand?
-
Het bereik geeft je de spreiding van de gehele dataset, terwijl de interkwartielafstand je de spreiding van de middelste helft van de dataset geeft.
- Wat is het verschil tussen centrummaten en spreidingsmaten?
-
Centrummaten zeggen iets over het punt waar de meeste waarden geclusterd zijn (het midden of het centrum van je dataset). Spreidingsmaten geven informatie over de afstand tussen datapunten (hoe verspreid zijn de data).
Datasets kunnen dezelfde centrale tendens hebben en een verschillende mate van spreiding (of andersom). Door beide soorten maten te combineren, krijg je een compleet beeld van je data.
- Wat zijn de vier meest gebruikte spreidingsmaten?
-
De spreiding (variability) wordt meestal bepaald met de volgende descriptieve statistieken:
- Bereik (range): het verschil tussen de hoogste en laagste waarde uit de dataset.
- Interkwartielafstand (interquartile range): het bereik van het middelste deel van de dataset.
- Standaarddeviatie (standard deviation): de gemiddelde afstand tussen iedere waarde in de dataset en het gemiddelde.
- Variantie (variance): de standaarddeviatie in het kwadraat.
- Kan het bereik (de range) een negatief getal zijn?
-
Nee, het bereik kan alleen 0 of een positieve waarde zijn, omdat je deze spreidingsmaat berekent door de laagste waarde van de hoogste waarde af te trekken.
- Wat is de het bereik (de range)?
-
Het bereik (ook wel spreidingsbreedte of range genoemd) is het interval tussen de laagste en de hoogste waarde in de dataset. Het is een veelgebruikte maat voor de spreiding (variability).
- Wat is homoscedasticiteit?
-
Homoscedasticiteit houdt in dat de variantie van een variabele gelijk is voor meerdere groepen of dat de variantie van de foutterm gelijk is.
Bij het uitvoeren van een t-toets of ANOVA, analyseer je de variantie tussen de meerdere groepen. Dit kan getoetst kan worden met Levene’s test.
Bij regressie moet de variantie van de foutterm gelijk zijn voor alle waarden van de verklarende variabele. Er mag dus niet meer of minder spreiding in de foutterm zijn voor grotere of lagere waarden van de verklarende variabele.
- Wat is multicollineariteit?
-
Als er een sterk lineair verband is tussen verklarende variabelen, spreek je van multicollineariteit.
Multicollineariteit kan ertoe leiden dat de regressiecoëfficiënten in je regressiemodel slechter worden geschat. De verklarende variabelen voorspellen elkaar dan en daardoor wordt er geen extra variantie verklaard in het regressiemodel.
Voorbeeld:
Je voegt zowel lengte in centimeters als lengte in inches toe als verklarende variabelen aan je regressievergelijking. Deze twee variabelen voorspellen elkaar, aangezien lengte in centimeters 2,54 maal de lengte in inches is, en zijn dus perfect lineair gecorreleerd. Er kunnen dan geen twee regressiecoëfficiënten worden berekend. - Wat is de assumptie van lineariteit?
-
Bij het uitvoeren van een lineaire regressie is het belangrijk dat het verband tussen de verklarende variabele en de afhankelijke variabele lineair is. Dit betekent dat voor zowel lage als hoge waarden van de verklarende variabele de invloed gelijk is.
Voorbeeld:
De verklarende variabele lengte beïnvloedt de afhankelijke variabele gewicht. Een lineair verband betekent dat het gewicht net zoveel toeneemt als iemand van 150 cm naar 160 cm lengte groeit als van 180 cm naar 190 cm. - Gebruik je komma’s of punten als decimaalteken?
-
In het Nederlands gebruik je komma’s als decimaalteken, terwijl je in het Engels een punt gebruikt.
Voor duizendtallen gebruik je in het Nederlands punten, terwijl je in het Engels een komma gebruikt.
Als je statistische resultaten rapporteert, is het wel gebruikelijk om ook in het Nederlands een punt als decimaalteken te gebruiken. Dit is zeker het geval als je de APA-stijl gebruikt.
- Hoe rapporteer je vergelijkingen volgens de APA-stijl?
-
Als je vergelijkingen wilt rapporteren volgens de APA-stijl, moet je op de volgende punten letten:
- Gebruik spaties, dus a + b = c in plaats van a+b=c
- Sluit vergelijkingen af met een punt
- Cursiveer de variabelen (in dit geval a, b en c)
- Gebruik haakjes om de volgorde van bewerkingen aan te geven, bijvoorbeeld: (a / b) + c in plaats van a / b + c
Vergelijkingen mogen in de tekst worden geplaatst, maar gecentreerd op een aparte regel heeft de voorkeur. Nummer deze vergelijkingen, zodat je ernaar kunt verwijzen. Dit nummer is altijd rechts uitgelijnd.
- Hoe bereken je Cronbach’s alpha in SPSS?
-
Om Cronbach’s alpha te berekenen met SPSS klik je in de menubalk op:
- Analyze
- Scale
- Reliability Analysis
Vervolgens selecteer je de vragen waarvan je de interne consistentie wilt meten.
Zorg er daarna voor dat “Alpha” geselecteerd is. Klik vervolgens op “Statistics” en vink “Scale if item deleted” aan. Alles staat nu goed: klik nu op “Continue” en “ok” om de analyse uit te voeren.
- Hoe bereken je Cronbach’s alpha met een formule?
-
Hoewel SPSS Cronbach’s alpha voor je kan berekenen, kan het soms ook handig zijn om zelf de formule te kennen. Stel dat n (vragen) samen de score klanttevredenheid Y geven, dan is Cronbach’s alpha:
Hierbij staat s2(Xi) voor de steekproefvariantie van vraag i, en s2(Y) voor de steekproefvariantie van de totale score.
- Hoe rapporteer je Cronbach’s alpha?
-
Je rapporteert Cronbach’s alpha meestal in de methodologie om aan te tonen dat je gebruikte vragenlijst betrouwbaar is. Je vermeldt het aantal items in je vragenlijst en de bijbehorende Cronbach’s alpha. Dit kun je op de volgende manier doen:
- De klanttevredenheidsschaal is betrouwbaar, Cronbach’s alpha voor de drie items is .850.
- De schaal voor klanttevredenheid is betrouwbaar (3 items; ⍺ = .850).
- Wat doe je als je data niet normaal verdeeld zijn?
-
Als je variabele niet normaal verdeeld is, kun je kijken of je de data kunt transformeren. Het kan namelijk zijn dat een variabele zelf niet normaal verdeeld is, maar het logaritme of het kwadraat wel.
Als ook dit niet het geval is, kun je niet-parametrische toetsen gebruiken, zoals de Wilcoxon- of Mann-Whitney-toets, in plaats van de t-toets.
- Wat is een normale verdeling?
-
Er zijn twee parameters die bepalen hoe de normale verdeling eruitziet: het gemiddelde en de standaarddeviatie.
- Binnen één standaarddeviatie ligt 68,2% van de observaties (34,1% + 34,1%), binnen twee standaarddeviaties 95,2% en binnen drie standaarddeviaties 99,6%.
- De centrummaten (gemiddelde, modus en mediaan) hebben bij een normale verdeling dezelfde waarde.
- De data zijn symmetrisch verdeeld, zonder skewness (zero skew).
- Waarom is het belangrijk dat je data normaal verdeeld zijn?
-
Veel statistische toetsen, zoals een t-toets of ANOVA, kunnen alleen geldige resultaten opleveren als sprake is van een normale verdeling. Als je data scheef verdeeld zijn, kan het voorkomen dat je resultaten niet valide zijn.
De aanname van een normale verdeling is vooral belangrijk bij steekproeven kleiner dan 30 observaties. Als je steekproef meer dan 30 observaties bevat, dan kun je volgens de centrale limietstelling (central limit theorem) aannemen dat aan de aanname van normaliteit wordt voldaan.
- Hoe bereken je de standaarddeviatie?
-
Er zijn zes stappen om de standaarddeviatie te berekenen (al kun je deze maat in Excel of SPSS automatisch laten berekenen).
- Maak een lijst van alle scores en vind het gemiddelde.
- Trek het gemiddelde af van iedere score om de afstand (afwijking) tot het gemiddelde te berekenen.
- Bereken voor iedere afwijking het kwadraat.
- Tel alle gekwadrateerde afwijkingen bij elkaar op.
- Deel de som van de gekwadrateerde afwijkingen door N – 1.
- Trek de wortel van het gevonden nummer bij stap 5.
- Wat is de standaarddeviatie?
-
De standaarddeviatie (standard deviation of s) is de gemiddelde hoeveelheid variabiliteit in je dataset. Deze maat vertelt je hoe ver iedere score gemiddeld van het gemiddelde verwijderd is. Des te groter de standaarddeviatie, des te meer variabel je dataset is.
- Wanneer gebruik je een meervoudige regressieanalyse?
-
Een meervoudige of multipele regressieanalyse is een uitbreiding van de enkelvoudige regressie waarbij twee of meer verklarende variabelen worden gebruikt om de afhankelijke variabele (Y) te voorspellen of verklaren.
Voorbeeld: Je wilt naast lengte ook geslacht gebruiken om iemands gewicht te voorspellen. In dit geval voeg je geslacht als tweede variabele X2 toe.
De regressievergelijking ziet er als volgt uit:
Υ = α + β1X1 + β2X2 + u
- Wanneer gebruik je een enkelvoudige regressieanalyse?
-
Je gebruikt een enkelvoudige regressieanalyse als je het effect van één verklarende (of onafhankelijke) variabele op een afhankelijke variabele wilt testen.
Voorbeeld: Je wilt aan de hand van lengte (verklarende variabele X) iemands gewicht (afhankelijke variabele Y) voorspellen of verklaren.
Een enkelvoudige regressie kan worden uitgedrukt met de volgende vergelijking:
Y = α + βX + u
- Wat is een regressieanalyse en waarvoor wordt deze gebruikt?
-
Regressieanalyses worden gebruikt om het effect te bepalen van een (of meerdere) verklarende variabele(n), zoals lengte of leeftijd, op een afhankelijke variabele zoals gewicht.
Je kunt regressieanalyse gebruiken om:
- Samenhang tussen twee variabelen te bepalen (leeftijd en waarde van een auto)
- Verandering van de afhankelijke variabele te voorspellen (waarde van een auto naarmate deze ouder wordt)
- Toekomstige waarde te voorspellen (waarde van een zes jaar oude auto)
- Wat is een repeated measures ANOVA?
-
Je gebruikt een repeated measures ANOVA als je dezelfde groep respondenten meerdere malen onderzoekt (within-subjects design)
Voorbeeld: Je meet de gemiddelde lengte van respondenten in 2008, 2013, en 2018. Je vergelijkt dan de gemiddelde lengte van dezelfde persoon over een bepaalde periode om te kijken of deze verandert.
- Wat is een multivariate ANOVA (MANOVA)?
-
Je gebruikt een multivariate ANOVA (ook wel MANOVA) als je meerdere afhankelijke variabelen gebruikt. Je kunt deze ANOVA zowel gebruiken met één als meerdere groepsvariabelen (onafhankelijke variabelen).
Voorbeeld: Je wilt niet alleen niet alleen de gemiddelde lengte, maar ook het gemiddelde gewicht van verschillende groepen sporters vergelijken.
Je kunt beter een MANOVA uitvoeren dan meerdere losse ANOVA’s, om het risico op een Type I-fout te voorkomen.
- Wat is een two-way ANOVA?
-
Je gebruikt een two-way-ANOVA (ook wel factorial ANOVA) als je twee of meer groepsvariabelen (onafhankelijke variabelen) in je conceptueel model hebt.
Voorbeeld: Je vergelijkt de gemiddelde lengte van verschillende typen sporters én hun gender. Er wordt dan niet alleen getest of het gemiddelde verschilt voor volleyballers en turners en voetballers, maar ook voor mannen, vrouwen en mensen met een ander gender, én of er eventuele interactie-effecten zijn.
- Wat is een one-way ANOVA?
-
Je gebruikt een one-way-ANOVA wanneer één groepsvariabele (onafhankelijke variabele) de groepen bepaalt en er maar één afhankelijke variabele is.
Voorbeeld: Je vergelijkt de gemiddelde lengte van verschillende typen sporters, zoals voetballers, turners en volleyballers. Het type sport dat iemand beoefent, is in dit geval de enige groepsvariabele en lengte is de enige afhankelijke variabele.
- Wat is een gepaarde t-test (paired samples t-test)?
-
Je gebruikt een gepaarde t-test (paired samples t-test) om twee gemiddelden van gepaarde steekproeven met elkaar te vergelijken. Gepaarde steekproeven zijn afhankelijk van elkaar.
- Wat is een onafhankelijke t-test (independent samples t-test)?
-
De onafhankelijke t-test (ook wel independent samples t-test of ongepaarde t-test genoemd) gebruik je om te onderzoeken of twee steekproefgemiddelden significant van elkaar verschillen.
- Wat is een one-sample t-test?
-
Je gebruikt de one sample t-test om te analyseren of het gemiddelde van een steekproef significant verschilt van een bepaalde waarde.
- Welke soorten t-testen (t-toetsen) bestaan er?
-
Er zijn verschillende soorten t-testen, namelijk de:
- One sample t-test: om te analyseren of het gemiddelde van een steekproef significant afwijkt van een bepaalde waarde.
- Onafhankelijke t-test (independent samples t-test): om te onderzoeken of twee steekproefgemiddelden significant van elkaar verschillen.
- Gepaarde t-test (paired samples t-test): om te onderzoeken of twee gemiddelden van gepaarde steekproeven van elkaar verschillen.
- Waarvoor wordt een t-test (t-toets) gebruikt?
-
De t-test, ook wel t-toets genoemd, wordt gebruikt om de gemiddelden van maximaal twee groepen met elkaar te vergelijken. Je kunt de t-test bijvoorbeeld gebruiken om te analyseren of moedertaalsprekers gemiddeld sneller spreken dan niet-moedertaalsprekers.
Als je meer dan twee groepen wilt vergelijken, moet je een andere toets gebruiken, zoals de ANOVA.
- Wat is een p-waarde (p-value)?
-
De p-waarde (p-value) is een getal tussen 0 en 1, waarmee je bepaalt of een steekproefuitkomst statistisch significant is. Wanneer de p-waarde kleiner is dan het gekozen significantieniveau kun je stellen dat dat de gevonden uitkomst extreem genoeg is om je nulhypothese te verwerpen.
- Waarvoor gebruik je SPSS?
-
Je gebruikt SPSS om data inzichtelijk te maken en te analyseren. De mogelijkheden zijn eindeloos, maar je zult SPSS meestal gebruiken om:
- Je data te visualiseren
- Je data samen te vatten met descriptieve statistiek
- Hypothesen te toetsen met inferentiële statistiek
- De verdeling van je data te controleren (normaal verdeeld of scheef verdeeld)
- Correlaties te berekenen
- Andere statistische analyses uit te voeren
- Wat is SPSS?
-
SPSS staat oorspronkelijk voor Statistical Package for the Social Sciences. Het is een statistisch computerprogramma ontwikkeld voor de sociale wetenschappen, maar wordt tegenwoordig ook veel gebruikt binnen andere sectoren zoals de economische wetenschappen.
SPSS helpt je bij het verzamelen, invoeren, lezen, bewerken en/of analyseren van gegevens, maar ook bij het verspreiden van de resultaten en het nemen van beslissingen.
- Kan er meer dan één modus (mode) zijn?
-
Een dataset kan geen modus, één modus of meer dan één modus hebben:
- geen enkele modus: alle waarden zijn anders
- unimodaal: één modus
- bimodaal: twee modi
- trimodaal: drie modi
- multimodaal: vier of meer modi
- Op welke manier kun je de modus (mode) bepalen?
-
Je kunt de modus bepalen met behulp van de volgende stappen:
- Als je data numeriek van aard zijn, rangschik je de waarden van laag naar hoog. Als je data categorisch zijn, verdeel je de waarden over de juiste categorieën.
- Zoek de waarde of waarden die het vaakst voorkomen.
- Hoe vind je de mediaan?
-
Om de mediaan te vinden, zet je de waarden in je dataset van laag naar hoog. Vervolgens bepaal je de middelste positie op basis van n (het aantal waarden in je dataset).
- Als n een oneven getal is, vind je de mediaan op positie .
- Als n een even getal is, is de mediaan het gemiddelde van de waarden op posities en .
- Wanneer gebruik je de mediaan als centrummaat?
-
De mediaan is de meest informatieve centrummaat voor scheve verdelingen of verdelingen met uitbijters. De mediaan wordt bijvoorbeeld vaak gebruikt als centrummaat voor de variabele “inkomen”, die over het algemeen niet normaal verdeeld is.
Aangezien je voor de mediaan slechts één of twee waarden in het midden gebruikt, wordt deze maat niet beïnvloed door extreme uitbijters of niet-symmetrische verdelingen. Het gemiddelde en de modus zijn hier wel gevoelig voor.
- Hoe kun je het gemiddelde berekenen?
-
Je kunt het gemiddelde van een dataset vinden door de volgende twee stappen te volgen:
- Bereken de som door alle waarden bij elkaar op te tellen.
- Deel de som door het aantal waarden in de dataset.
Deze methode werkt zowel voor steekproef- als populatiedata. Ook maakt het niet uit of je te maken hebt met positieve (+2) of negatieve waarden (-2).
- Welke centrummaten kan ik gebruiken met mijn data?
-
Welke centrummaten je kunt gebruiken, is afhankelijk van het meetniveau en de verdeling van je data.
- Voor nominale data, kun je alleen de modus gebruiken om de meest voorkomende waarde te vinden.
- Voor ordinale data kun je zowel de modus en de mediaan gebruiken.
- Voor interval- of ratiodata kun je, naast de modus en mediaan, ook het gemiddelde gebruiken.
Ook moet je op de verdeling van je data letten. Voor normaal verdeelde data kun je alle drie de centrummaten gebruiken, maar bij scheve verdelingen is de mediaan de beste keuze.
- Wat zijn centrummaten (measures of central tendency)?
-
Centrummaten (measures of central tendency) helpen je het centrum of midden van een dataset te vinden.
De drie meest gebruikte centrummaten zijn het gemiddelde, de mediaan en de modus.
- De modus is de waarde die het vaakst voorkomt
- De mediaan is de middelste waarde als je de dataset van kleinste naar grootste waarde rangschikt.
- Het gemiddelde is de som van alle waarden, gedeeld door het totale aantal waarden.
- Wat is het verschil tussen univariate, bivariate en multivariate beschrijvende statistieken?
-
- Univariate statistieken vatten één variabele per keer samen.
- Bivariate statistieken vergelijken twee variabelen.
- Multivariate statistieken vergelijken drie of meer variabelen.
- Wat zijn de drie belangrijkste beschrijvende statistieken?
-
De drie belangrijkste beschrijvende statistieken hebben betrekking op de frequentieverdeling, centrale tendens en variabiliteit van de dataset.
- Verdeling (distribution) verwijst naar de frequentie waarmee bepaalde antwoorden voorkomen.
- Centrummaten (measures of central tendency) geven je het gemiddelde voor iedere vraag.
- Spreidingsmaten (measures of variability) laten je de mate van spreiding in de dataset zien.
- Wat is statistische significantie?
-
Statistische significantie is een term die door onderzoekers wordt gebruikt om aan te geven dat het onwaarschijnlijk is dat hun resultaten op toeval gebaseerd zijn. Significantie wordt meestal aangeduid met een p-waarde (overschrijdingskans).
Statistische significantie is enigszins willekeurig, omdat je zelf de drempelwaarde (alfa) kiest. De meest voorkomende drempel is p < 0.05, wat betekent dat de kans 5% is dat de resultaten worden gevonden terwijl de nulhypothese waar is. Een andere drempel die vaak wordt gekozen is p < 0.01.
Als de p-waarde lager is dan de gekozen alfa-waarde, mag je stellen dat het resultaat van de toets statistisch significant is.
- Wat zijn een nulhypothese en alternatieve hypothese?
-
Bij statistische analyses voorspelt de nulhypothese (H0) altijd dat er geen effect of relatie tussen variabelen is, terwijl de alternatieve hypothese (H1) je verwachting van een effect of relatie uitdrukt.
- Wat is het verschil tussen beschrijvende en toetsende statistiek?
-
Met beschrijvende statistiek (ook wel descriptieve statistiek genoemd) vat je de kenmerken van een dataset samen. Met toetsende statistiek (ook wel inferentiële of verklarende statistiek genoemd) toets je een hypothese of bepaal je of je data generaliseerbaar zijn naar een bredere populatie.
- Wat is statistische analyse?
-
Statistische analyse is de meest belangrijke methode om kwantitatieve onderzoeksgegevens te analyseren. Hierbij wordt gebruikgemaakt van kansen en modellen om voorspellingen over een populatie te toetsen op basis van steekproefdata.
- Wat is het verschil tussen interval- en ratiodata?
-
Hoewel interval– en ratiodata beide kunnen worden gecategoriseerd, gerangschikt en gelijke afstanden hebben tussen aangrenzende waarden (gelijke intervallen), hebben alleen ratiodata een absoluut of betekenisvol nulpunt.
De temperatuur in Celsius of Fahrenheit is een voorbeeld van een intervalschaal, omdat nul niet de laagst mogelijke temperatuur is. Je kunt namelijk ook nog te maken hebben met min-temperaturen. Een Kelvin-temperatuurschaal is een voorbeeld van een ratioschaal, omdat nul het absolute nulpunt is. Er zijn geen min-temperaturen.
- Wat zijn de verschillen tussen nominale en ordinale data?
-
Het nominale meetniveau verschilt van het ordinale meetniveau, omdat nominale data alleen gecategoriseerd kunnen worden, maar ordinale data ook gerangschikt kunnen worden.
Een voorbeeld van een nominale variabele is “Kledingwinkels”. Je kunt de data bijvoorbeeld verdelen over Zara, H&M, Only en Primark, maar je kunt die kledingwinkels niet op een natuurlijke, logische manier rangschikken.
Een voorbeeld van een ordinale variabele is “Leeftijd”. Je kunt de data bijvoorbeeld verdelen over 0-18, 19-34, 35-49 en 50+, en deze categorieën kun je in een logische volgorde zetten.
- Wat zijn nominale data?
-
Nominale data kunnen worden verdeeld over categorieën (waarbij ieder datapunt maar in één categorie hoort) en de categorieën kunnen niet worden gerangschikt op een logische of natuurlijke manier.
Een voorbeeld van een nominale variabele is “vervoersmiddel”. Deze zou bijvoorbeeld uit de categorieën fiets, auto, bus, trein, metro en tram kunnen bestaan. Die vervoersmiddelen kunnen niet op een logische manier worden geordend, want het maakt bijvoorbeeld niet uit of je start met de fiets of de auto.
In het geval van een ordinale variabele, zoals “opleidingsniveau” zou je de opleidingsniveaus vmbo, havo, vwo wel op een logische manier kunnen rangschikken.
Het nominale meetniveau is het minst complexe en minst precieze meetniveau.
- Wat zijn ordinale data?
-
Ordinale data hebben twee eigenschappen:
- De data kunnen worden verdeeld over verschillende categorieën van de variabele.
- De categorieën kunnen op een logische, natuurlijke manier worden gerangschikt.
Het ordinale meetniveau verschilt van het intervalmeetniveau, omdat de afstand tussen twee categorieën niet gelijk is of onbekend is.
Stel je hebt de categorieën beginner, gevorderde en expert. Het is niet mogelijk om aan te geven of een beginner net zoveel verschilt van een gevorderde als een gevorderde van een expert.