2 Data en Variabelen
2.1 Variabelen
Bij het importeren van de gegevens heb je de variabelen al gedefinieerd en zijn ze van een naam voorzien. Je moet verder ook nog weten wat voor een soort waarden de variabele kan hebben om later te kunnen bepalen welke statistische methodes geschikt zijn voor de variabele. In grote lijnen zijn alle variabelen ofwel kwantitatieve (numerieke) variabelen waarvan de gegevens uit een getelde of gemeten hoeveelheid bestaat, of categoriale variabelen waarvan de gegevens groepen (categorieën) vertegenwoordigen. Zo is een variabele weekomzet
een kwantitatieve variabele omdat de waarden hiervan hoeveelheden zijn. En een variabele als geslacht
met de categorieën Man
en Vrouw
is een categoriale variabele.
Soms moet je een kwantitatieve variabele verder specificeren als discreet of continu. Discrete kwantitatieve variabelen hebben waarden die voortkomen uit tellingen, ze vertegenwoordigen een aantal van iets, zoals het aantal leerlingen in een klas. Continue kwantitatieve variabelen hebben waarden die voortkomen uit metingen, zoals de lengte van een persoon, welke in principe elke waarde binnen een interval kan aannemen (afhankelijk van de nauwkeurigheid van het meetinstrument).
2.1.1 Meetschaal
Variabelen worden in vier meetniveaus (schalen) ingedeeld: nominaal, ordinaal, interval en ratio.
- Categoriale variabelen
-
Met deze variabelen kun je geen berekeningen uitvoeren, zoals het berekenen van een gemiddelde. Ze worden onderverdeeld in nominaal en ordinaal.
Nominaal
: Variabelen met namen als waarde (naam is in het Latijn nomen), zonder rangorde of logische volgorde. Voorbeelden: nationaliteit, oogkleur, studierichting, beroep, godsdienst, geslacht, industrietak.Ordinaal
: De waarden zijn kwalitatief van aard en hebben een logische volgorde. Je kunt ze sorteren maar er geen rekenkundige bewerkingen mee uitvoeren. Voorbeelden: beoordeling (1=zeer slecht, 2=slecht, 3=matig, 4=goed, 5=zeer goed), medaille (goud, zilver, brons), T-shirt maten (S, M, L, XL).
- Kwantitatieve variabelen
-
Deze worden onderverdeeld in interval en ratio.
Interval
: de gegevens hebben geen natuurlijk nulpunt, de keuze van een nulpunt is arbitrair. Het verschil tussen de waarden heeft wel betekenis. Zo is het verschil tussen 10°C en 15°C even groot als tussen 20°C en 25°C, maar je kunt niet zeggen dat 20°C twee keer zo warm is als 10°C. Sommige rekenkundige bewerkingen kun je wel uitvoeren zoals optellen, aftrekken en gemiddelde bepalen.Ratio
: de gegevens hebben een natuurlijk nulpunt. Hier kun je wel uitspraken doen over verhoudingen. Zo is een salaris van €4000 twee keer zo groot als een salaris van €2000. Voorbeelden: inkomen, vermogen, gewicht. Voor statistische doeleinden hoef je meestal geen verschil te maken tussen ratio- en intervalgegevens.
Een jaartal, bijvoorbeeld het bouwjaar van een auto, wordt doorgaans beschouwd als een discrete kwantitatieve variabele en niet als een ordinale variabele. Echter afhankelijk van de context kan het nodig zijn om een jaarvariabele als een ordinale variabele te behandelen.
Testvragen
Welk type variabele is de medaillesoort die een atleet op de Olympische spelen kan winnen?
Welk type variabele is de tijd van een atleet voor het lopen van een marathon?
De Nederlandse nationale politie kent een aantal rangen. Welk type variabele is de rang?
2.2 Gestructureerde gegevens
Vaak zijn de gegevens zijn niet goed gestructureerd, waardoor je niet met draaitabellen kunt werken of de gewenste grafieken niet kunt maken. Wanneer de gegevens goed gestructureerd zijn kun je ze gemakkelijker modelleren, visualiseren en transformeren waardoor de analyse eenvoudiger wordt.
Gestructureerde gegevens moeten voldoen aan de volgende voorwaarden:
Elke gemeten variabele staat in een kolom.
Elke waarneming van de variabele staat in een rij.
In Tabel 2.1 staan de gegevens van een meting bij een klein denkbeeldig experiment in een formaat dat je veel tegenkomt.
Naam | Behandeling A | Behandeling B |
---|---|---|
Melissa | 6 | 7 |
Roger | 18 | |
Vicky | 4 | 1 |
Wanneer je de rijen en kolommen verwisselt heb je dezelfde gegevens, maar de tabel ziet er dan iets anders uit, zie Tabel 2.2.
Behandeling | Melissa | Roger | Vicky |
---|---|---|---|
Behandeling A | 6 | 4 | |
Behandeling B | 7 | 18 | 1 |
In feite telt deze gegevensverzameling drie variabelen: Naam
, Behandeling
en Meetwaarde
. Gestructureerd ziet deze gegevensverzameling er uit zoals in Tabel 2.3.
Naam | Behandeling | Meetwaarde |
---|---|---|
Melissa | Behandeling A | 6 |
Melissa | Behandeling B | 7 |
Roger | Behandeling A | |
Roger | Behandeling B | 18 |
Vicky | Behandeling A | 4 |
Vicky | Behandeling B | 1 |
Dit maakt de waarden, variabelen en waarnemingen duidelijker.
Echte gegevensverzamelingen zijn vaak op bijna elke denkbare manier in strijd met de voorwaarden voor gestructureerde gegevens. De meest voorkomende problemen bij niet goed gestructureerde gegevensverzamelingen zijn:
- Kolomkoppen bevatten waarden van een variabele i.p.v. een variabelenaam.
- Combinatie van variabelen in een kolom.
- Variabelen in zowel rijen als kolommen.
In de taken hierna zullen in kleine voorbeelden deze problemen gedemonstreerd worden en opgelost worden met behulp van Power Query.
2.2.1 Kolomkoppen met waarden
Een veel voorkomende vorm van een gegevensverzameling is een tabelvorm waarbij de kolomkoppen waarden zijn en geen variabelenamen. De volgende tabel is hier een voorbeeld van. Hierin staat het aantal mannelijke en vrouwelijke studenten dat een bepaalde score (A t/m E) behaald heeft.
Deze gegevensverzameling heeft in feite drie variabelen:
score
- met de waardenA
t/mE
geslacht
- met de waardenman
envrouw
aantal
- met het aantal keren dat de score behaald is, de frequentie
Het probleem is dus dat de waarden van de variabele geslacht
in twee kolomkoppen staat.
De eerste variabele score
is al een kolom, dat moet dus zo blijven. Voor de variabelen geslacht
en aantal
moeten nieuwe kolommen gemaakt worden. Voor elke combinatie van score
en geslacht
moet een rij gemaakt worden.
Taak 2.1 Hulpbestand: scores1.xlsx
Open het hulpbestand.
Selecteer een willekeurige cel met gegevens en kies tab Gegevens > Vanaf blad (Gegevens ophalen en transformeren). Het dialoogvenster Tabel maken verschijnt, waarin de tabelgegevens gespecificeerd kunnen worden. Het gegevensgebied is standaard al goed ingevuld.
Zorg er voor dat de optie voor kopteksten geselecteerd is en klik OK. Op het werkblad worden de gegevens allereerst in een Excel tabel omgezet. Daarna wordt in een nieuw venster de Power Query-editor opgestart die de gegevens uit de tabel inleest.
Selecteer in de Power Query editor de eerste kolom
score
.Kies tab Transformeren > Draaitabel opheffen voor kolommen (groep Alle kolommen) > Draaitabel voor andere kolommen opheffen. Er worden twee nieuwe kolommen gemaakt. Een kolom
Kenmerk
(met de waarden voor variabelegeslacht
) en een kolomWaarde
met de aantallen. En voor elke combinatie vanscore
engeslacht
is een rij gemaakt.Selecteer kolom
Kenmerk
, dan Rechter muisklik > Naam wijzigen en wijzig de naam ingeslacht
.Wijzig op dezelfde manier de naam van kolom
Waarde
inaantal
.Kies tab Startpagina > Sluiten en laden > Sluiten en laden.
Het resultaat is een tabel met gestructureerde gegevens. Elke kolom is één variabele en elke rij is één waarneming.
2.2.2 Kolomkoppen zijn gecombineerde variabelen
Soms zijn kolommen een combinatie van meerdere onderliggende variabelen. Dit is het geval bij de gegevensverzameling in Figuur 2.5. Deze is gelijkwaardig aan die in de vorige taak. Alleen zijn er nu twee verschillende klassen (klas1 en klas2) en staat het aantal voor elk geslacht in elke klas in een eigen kolom. Ook in deze gegevensverzameling zijn de kolomkoppen waarden van variabelen. Maar er zijn twee variabelen, geslacht
en klas
, in één kolom gecombineerd.
Taak 2.2 Hulpbestand: scores2.xlsx
Open het hulpbestand.
Selecteer een willekeurige cel met gegevens en kies tab Gegevens > Vanaf blad (Gegevens ophalen en transformeren). Het dialoogvenster Tabel maken verschijnt, waarin de tabelgegevens gespecificeerd kunnen worden. Het gegevensgebied is standaard al goed ingevuld.
Zorg er voor dat de optie voor kopteksten geselecteerd is en klik OK. Op het werkblad worden de gegevens allereerst in een Excel tabel omgezet. Daarna wordt in een nieuw venster de Power Query-editor opgestart die de gegevens uit de tabel inleest.
Selecteer in de Power Query editor de eerste kolom
score
.Kies tab Transformeren > Draaitabel opheffen voor kolommen (groep Alle kolommen) > Draaitabel voor andere kolommen opheffen. Er worden twee nieuwe kolommen gemaakt. Een kolom
Kenmerk
(met de waarden voorgeslacht_klas
) en een kolomWaarde
met de aantallen. En voor elke combinatie vanscore
engeslacht_klas
is een rij gemaakt.Selecteer kolom
Kenmerk
en kies tab Transformeren > Kolom splitsen (groep Kolom Tekst) > Op scheidingsteken. In het dialoogvenster is reeds het juiste scheidingsteken (_
) waarop gesplitst moet worden, geselecteerd.Klik OK. De kolom
Kenmerk
is gesplitst in kolomKenmerk.1
(met de waarden voor variabelegeslacht
) enKenmerk.2
(met de waarden voor variabeleklas
).Wijzig de namen van de kolommen
Kenmerk.1
,Kenmerk.2
enWaarde
in respectievelijkgeslacht
,klas
enaantal
.Kies tab Startpagina > Sluiten en laden > Sluiten en laden.
Het resultaat is een tabel met gestructureerde gegevens. Elke kolom is één variabele en elke rij is één waarneming.
2.2.3 Variabelen in rijen en kolommen
Een meer gecompliceerde vorm van rommelige gegevens krijg je wanneer er variabelen in zowel rijen als kolommen staan. In het voorbeeld hierna staan de beoordelingen voor een tussentoets en een eindtoets voor vijf studenten, waarbij elk van hen in precies twee van de vijf mogelijke klassen is geplaatst.
De eerste kolom met de variabele naam
is in orde en moet zo blijven. De koppen van de laatste vijf kolommen zijn allemaal waarden van de variabele klas
. De waarden in de tweede kolom, tussentoets
en eindtoets
, moeten eigen variabelen worden met als waarde de beoordeling van de student op dit onderdeel.
Taak 2.3 Hulpbestand: scores3.xlsx
Open het hulpbestand.
Selecteer een willekeurige cel met gegevens en kies tab Gegevens > Vanaf blad (Gegevens ophalen en transformeren). Het dialoogvenster Tabel maken verschijnt, waarin de tabelgegevens gespecificeerd kunnen worden. Het gegevensgebied is standaard al goed ingevuld.
Zorg er voor dat de optie voor kopteksten geselecteerd is en klik OK. Op het werkblad worden de gegevens allereerst in een Excel tabel omgezet. Daarna wordt in een nieuw venster de Power Query-editor opgestart die de gegevens uit de tabel inleest.
Selecteer in de Power Query editor de laatste vijf kolommen
klas1
t/mklas5
.Kies tab Transformeren > Draaitabel opheffen voor kolommen (groep Alle kolommen) > Draaitabel opheffen voor kolommen. Er worden twee nieuwe kolommen gemaakt. Een kolom
Kenmerk
(met de waarden voor variabeleklas
) en een kolomWaarde
met de beoordeling. En voor elke combinatie vannaam
,toets
enklas
is een rij gemaakt.Wijzig de naam van kolom
Kenmerk
inklas
.Selecteer kolom
toets
en kies tab Transformeren > Draaikolom (groep Alle kolommen). Het dialoogvenster Draaikolom verschijntKies als Waardenkolom
Waarde
. En geef onder Geavanceerde opties aan dat er niet samengevoegd moet worden.
Klik OK.
Kies tab Startpagina > Sluiten en laden > Sluiten en laden.
Het resultaat is een tabel met gestructureerde gegevens. Elke kolom is één variabele en elke rij is één waarneming.
2.3 TAAK: Populatie Benelux
Figuur 2.10 bevat de populatie mannen en vrouwen in de landen van de Benelux voor de jaren 2000, 2005, 2010 en 2015.
Deze gegevens wil je analyseren en bijvoorbeeld de ontwikkeling van de populatie per geslacht per jaar bestuderen en dat eventueel nog per land. Een draaitabel en draaigrafiek lenen zich daar het beste voor.
Echter de gegevens staan niet in een goed gestructureerde Exceltabel. In feite heeft deze tabel vier variabelen: Land
, Geslacht
, Jaar
en Populatie
. De eerste twee variabelen staan in een eigen kolom, dat moet zo blijven. De laatste vier kolomkoppen zijn de waarden van de variabele Jaar
en de inhoud van deze kolommen is de waarde van de variabele Populatie
. De tabel moet dus eerst gestructureerd worden voordat met de analyse begonnen kan worden.
Taak 2.4 Hulpbestand: benelux-populatie.xlsx
Structureren data
Open het hulpbestand.
Selecteer een willekeurige cel met gegevens en kies tab Gegevens > Vanaf blad (Gegevens ophalen en transformeren). Het dialoogvenster Tabel maken verschijnt, waarin de tabelgegevens gespecificeerd kunnen worden. Het gegevensgebied is standaard al goed ingevuld.
Zorg er voor dat de optie voor kopteksten geselecteerd is en klik OK. Op het werkblad worden de gegevens allereerst in een Excel tabel omgezet. Daarna wordt in een nieuw venster de Power Query-editor opgestart die de gegevens uit de tabel inleest.
Selecteer in de Power Query editor de eerste twee kolommen, met
Land
enGeslacht
.Kies tab Transformeren > Draaitabel opheffen voor kolommen (groep Alle kolommen) > Draaitabel voor andere kolommen opheffen. Er worden twee nieuwe kolommen gemaakt. Een kolom
Kenmerk
(met de waarden voor variabeleJaar
) en een kolomWaarde
met de populatiegetallen. En voor elke combinatie vanLand
,Geslacht
enJaar
is een rij gemaakt.
Wijzig de namen van de kolommen
Kenmerk
enWaarde
in respectievelijkJaar
enPopulatie
.Kies tab Startpagina >Sluiten en laden (groep Sluiten). De gegevens worden nu in een nieuwe tabel in een nieuw werkblad gezet.
De gegevens staan nu in een gestructureerde Excel tabel en zijn nu geschikt voor het maken van draaitabellen en draaigrafieken.
Analyse
- Maak de volgende draaitabel en draaigrafiek.
2.4 Opgaven
Oefening 2.1 waarnemingen en variabelen
In Figuur 2.13 zie je een tabel uit een Excel werkblad met een aantal persoonsgegevens.
- Hoeveel waarnemingen en hoeveel variabelen telt de dataset in Figuur 2.13?
- Geef voor elke variabele aan tot welk meetniveau deze variabele behoort.
Oefening 2.2 Tekstberichten
Bij een onderzoek wordt aan personen gevraagd om bij te houden hoeveel tekstberichten ze per dag versturen en hoeveel tijd ze hieraan besteden. Welke variabelen heb je hier en zijn deze discreet of continu?
Oefening 2.3 Koffieprijzen
Het bestand koffieprijzen.xlsx
bevat een aantal koffieprijzen van Starbucks, zie de tabel in Figuur 2.14.
- Ga na dat de tabel in feite drie variabelen bevat en dat de waarden van een van de variabelen in de kolomkoppen staat.
- Maak hiervan een gestructureerde dataset.
Oefening 2.4 Kosten levensonderhoud
Om de kosten van levensonderhoud in Europa te vergelijken zijn via de website van Numbeo voor een aantal plaatsen de gemiddelde marktprijzen verzameld voor brood (wit, 500 gram), kaas(lokaal, 1 kg), melk (gewoon, 1 liter) en rijst (wit, 1 kg). De data staan in het bestand levensonderhoud.xlsx
. Voor de eerste 8 plaatsen zijn de gegevens te zien in de tabel in Figuur 2.15.
- Maak hiervan een gestructureerde dataset.
- In welk land is rijst gemiddeld het goedkoopst en in welk land het duurst?
Oefening 2.5 Toets basisschool
Op een bepaalde basischool krijgt elke leerling krijgt in elk kwartaal (Herfst, Winter en Lente) van elk jaar een toets voor rekenen en taal. Het bestand rekenentaal.xlsx
bevat een beperkte gegevensverzameling hiervan en is te zien in de tabel in Figuur 2.16.
De analyse-eenheid is ID-Jaar-Kwartaal. Dus elke waarneming is die van een leerling gedurende een kwartaal in een bepaald jaar.
- Maak hiervan een gestructureerde gegevensverzameling.
- Maak een draaigrafiek (staafdiagram) van de gemiddelde scores voor rekenen en taal per jaar.