Hoofdstuk 2 Data en Variabelen

Data bestaat uit waarnemingen van meetgegevens, dat zijn de variabelen. In dit hoofdstuk wordt uitgelegd welke soort variabelen er zijn en welke bewerkingen je mag toepassen.

Wanneer je data uit externe bronnen importeert, heb je geen controle over de indeling en het type gegevens en de manier waarop de data is georganiseerd. Voordat je met de analyse kunt beginnen moet je daarom vaak veel tijd steken om de data te herstructureren. Het tweede deel van dit hoofdstuk gaat hierover.

2.1 Variabelen

Bij het importeren van de gegevens heb je de variabelen al gedefinieerd en zijn ze van een naam voorzien. Je moet verder ook nog weten wat voor een soort waarden de variabele kan hebben om later te kunnen bepalen welke statistische methodes geschikt zijn voor de variabele. In grote lijnen zijn alle variabelen ofwel numerieke variabelen waarvan de gegevens uit een getelde of gemeten hoeveelheid bestaat, of categoriale variabelen waarvan de gegevens categorieën vertegenwoordigen. Zo is een variabele weekomzet een numerieke variabele omdat de waarden hiervan hoeveelheden zijn. En een variabele geslacht met de categorieën Man en Vrouw is een categoriale variabele.

Soms moet je een numerieke variabele verder specificeren als discreet of continu. Discrete numerieke variabelen hebben waarden die voortkomen uit tellingen, ze vertegenwoordigen een aantal van iets, zoals het aantal leerlingen in een klas. Continue numerieke variabelen hebben waarden die voortkomen uit metingen, zoals de lengte van een persoon, welke in principe elke waarde binnen een interval kan aannemen (afhankelijk van de nauwkeurigheid van het meetinstrument).

Meetschaal

Variabelen worden in vier meetniveaus (schalen) ingedeeld:

  • Categorie variabelen Met deze variabelen kun je geen berekeningen uitvoeren, zoals het berekenen van een gemiddelde. Ze worden onderverdeeld in nominaal en ordinaal.
    • Nominaal: variabelen met namen als waarde (naam is in het Latijn nomen), zonder rangorde of logische volgorde. Voorbeelden: nationaliteit, oogkleur, studierichting, beroep, godsdienst, geslacht, industrietak.
    • Ordinaal: de waarden zijn kwalitatief van aard en hebben een logische volgorde. Je kunt ze sorteren maar er geen rekenkundige bewerkingen mee uitvoeren. Voorbeelden: beoordeling (1=zeer slecht, 2=slecht, 3=matig, 4=goed, 5=zeer goed), medaille (goud, zilver, brons), T-shirt maten (S, M, L, XL).
  • Numerieke variabelen Deze worden onderverdeeld in interval en ratio.
    • Interval: de gegevens hebben geen natuurlijk nulpunt, de keuze van een nulpunt is arbitrair. Het verschil tussen de waarden heeft wel betekenis. Zo is het verschil tussen 10°C en 15°C even groot als tussen 20°C en 25°C, maar je kunt niet zeggen dat 20°C twee keer zo warm is als 10°C. Sommige rekenkundige bewerkingen kun je wel uitvoeren zoals optellen, aftrekken en gemiddelde bepalen.
    • Ratio: de gegevens hebben een natuurlijk nulpunt. Hier kun je wel uitspraken doen over verhoudingen. Zo is een salaris van €4000 twee keer zo groot als een salaris van €2000. Voorbeelden: inkomen, vermogen, gewicht. Voor statistische doeleinden hoef je meestal geen verschil te maken tussen ratio- en intervalgegevens.

Figuur 2.1: Meetniveaus van variabelen

2.2 Wat zijn gestructureerde gegevens

Vaak zijn de gegevens zijn niet goed gestructureerd, waardoor je niet met draaitabellen kunt werken of de gewenste grafieken niet kunt maken. Wanneer de gegevens goed gestructureerd zijn kun je ze gemakkelijker modelleren, visualiseren en transformeren waardoor de analyse eenvoudiger wordt.

Gestructureerde gegevens moeten voldoen aan de volgende voorwaarden:

  1. Elke gemeten variabele staat in een kolom.
  2. Elke waarneming van de variabele staat in een rij.
Grafische weergave van gestructureerde gegevens

Figuur 2.2: Grafische weergave van gestructureerde gegevens

Voorbeeld

In tabel 2.1 staan de gegevens van een meting bij een klein denkbeeldig experiment in een formaat dat je veel tegenkomt.

Tabel 2.1: Personen als rij.
Naam Behandeling.A Behandeling.B
Melissa 6 7
Roger 18
Vicky 4 1

Wanneer je de rijen en kolommen verwisselt heb je dezelfde gegevens, maar de tabel ziet er dan iets anders uit, zie tabel 2.2.

Tabel 2.2: Behandelingen als rij.
Behandeling Melissa Roger Vicky
Behandeling.A 6 4
Behandeling.B 7 18 1

Gestructureerd ziet de gegevensverzameling er uit zoals in tabel 2.3.

Tabel 2.3: Gegevens in gestructureerde vorm.
Naam Behandeling Meting
Melissa Behandeling.A 6
Melissa Behandeling.B 7
Roger Behandeling.A
Roger Behandeling.B 18
Vicky Behandeling.A 4
Vicky Behandeling.B 1

Dit maakt de waarden, variabelen en waarnemingen duidelijker.

  1. Hoeveel waarnemingen en hoeveel variabelen telt de dataset in tabel 2.3? Controleer je antwoord via de voetnoot.5
  2. Voldoet de gegevensverzameling nu aan de voorwaarden?6

Echte gegevensverzamelingen zijn vaak op bijna elke denkbare manier in strijd met de voorwaarden voor gestructureerde gegevens. De meest voorkomende problemen bij niet goed gestructureerde gegevensverzamelingen zijn:

  • Kolomkoppen bevatten waarden van een variabele i.p.v. een variabelenaam.
  • Combinatie van variabelen in een kolom.
  • Variabelen in zowel rijen als kolommen.

In de taken hierna zullen in kleine voorbeelden deze problemen gedemonstreerd worden en opgelost worden met behulp van Power Query.

2.2.1 Kolomkoppen met waarden

Een veel voorkomende vorm van een gegevensverzameling is een tabelvorm waarbij de kolomkoppen waarden zijn en geen variabelenamen. De volgende tabel is hier een voorbeeld van. Hierin staat het aantal mannelijke en vrouwelijke studenten dat een bepaalde score (A t/m E) behaald heeft.

Tabel 2.4: Tabel waarin de kolomkoppen man en vrouw in feite waarden van variabele geslacht zijn.
score man vrouw
A 5 3
B 10 5
C 9 9
D 6 5
E 1 7

Deze gegevensverzameling heeft in feite drie variabelen:

  • score - met de waarden A t/m E.
  • geslacht - met de waarden man en vrouw
  • aantal - met het aantal keren dat de score behaald is, de frequentie

Het probleem is dus dat de waarden van de variabele geslacht in twee kolomkoppen staat.

De eerste variabele score is al een kolom, dat moet dus zo blijven. Voor de variabelen geslacht en aantal moeten nieuwe kolommen gemaakt worden. Voor elke combinatie van score en geslacht moet een rij gemaakt worden.

Oefening

  1. Download eerst het hulpbestand scores1.xlsx en open het daarna.

  2. Selecteer een willekeurige cel met gegevens en kies tab Gegevens > Vanaf blad (Gegevens ophalen en transformeren). Het dialoogvenster Tabel maken verschijnt, waarin de tabelgegevens gespecificeerd kunnen worden. Het gegevensgebied is standaard al goed ingevuld.

  3. Zorg er voor dat de optie voor kopteksten geselecteerd is en klik OK. Op het werkblad worden de gegevens allereerst in een Excel tabel omgezet. Daarna wordt in een nieuw venster de Power Query-editor opgestart die de gegevens uit de tabel inleest.

  4. Selecteer in de Power Query editor de eerste kolom score.

  5. Kies tab Transformeren > Draaitabel opheffen voor kolommen (groep Alle kolommen) > Draaitabel voor andere kolommen opheffen. Er worden twee nieuwe kolommen gemaakt. Een kolom Kenmerk (met de waarden voor variabele geslacht) en een kolom Waarde met de aantallen. En voor elke combinatie van score en geslacht is een rij gemaakt.

  6. Selecteer kolom Kenmerk, Rechter muisklik > Naam wijzigen en wijzig de naam in geslacht.

  7. Wijzig op dezelfde manier de naam van kolom Waarde in aantal.

  8. Kies tab Startpagina > Sluiten en laden > Sluiten en laden.

Het resultaat is een tabel met gestructureerde gegevens. Elke kolom is één variabele en elke rij is één waarneming.

Tabel 2.5: Scores1 nu gestructureerd
score geslacht aantal
A man 5
A vrouw 3
B man 10
B vrouw 5
C man 9
C vrouw 9
D man 6
D vrouw 5
E man 1
E vrouw 7

2.2.2 Kolomkoppen zijn gecombineerde variabelen

Soms zijn kolommen een combinatie van meerdere onderliggende variabelen. Dit is het geval bij de gegevensverzameling in de volgende tabel. Deze is gelijkwaardig aan die in de vorige taak. Alleen zijn er nu twee verschillende klassen (klas1 en klas2) en staat het aantal voor elk geslacht in elke klas in een eigen kolom. Ook in deze gegevensverzameling zijn de kolomkoppen waarden van variabelen. Maar er zijn twee variabelen, geslacht en klas, in een kolom gecombineerd.

Tabel 2.6: Tabel met vier kolomkoppen die een combinatie van de variabelen geslacht en klas zijn.
score man_klas1 vrouw_klas1 man_klas2 vrouw_klas2
A 2 1 3 2
B 5 2 5 3
C 6 5 3 4
D 2 4 4 1
E 0 2 1 5

Oefening

  1. Download eerst het hulpbestand scores2.xlsx en open het daarna.

  2. Selecteer een willekeurige cel met gegevens en kies tab Gegevens > Vanaf blad (Gegevens ophalen en transformeren). Het dialoogvenster Tabel maken verschijnt, waarin de tabelgegevens gespecificeerd kunnen worden. Het gegevensgebied is standaard al goed ingevuld.

  3. Zorg er voor dat de optie voor kopteksten geselecteerd is en klik OK. Op het werkblad worden de gegevens allereerst in een Excel tabel omgezet. Daarna wordt in een nieuw venster de Power Query-editor opgestart die de gegevens uit de tabel inleest.

  4. Selecteer in de Power Query editor de eerste kolom score.

  5. Kies tab Transformeren > Draaitabel opheffen voor kolommen (groep Alle kolommen) > Draaitabel voor andere kolommen opheffen. Er worden twee nieuwe kolommen gemaakt. Een kolom Kenmerk (met de waarden voor geslacht_klas) en een kolom Waarde met de aantallen. En voor elke combinatie van score en geslacht_klas is een rij gemaakt.

  6. Selecteer kolom Kenmerk en kies tab Transformeren > Kolom splitsen (groep Kolom Tekst) > Op scheidingsteken. In het dialoogvenster is reeds het juiste scheidingsteken waarop gesplitst moet worden, _, geselecteerd.

  7. Klik OK. De kolom Kenmerk is gesplitst in kolom Kenmerk.1 (met de waarden voor variabele geslacht) en Kenmerk.2 (met de waarden voor variabele klas).

  8. Wijzig de namen van de kolommen Kenmerk.1, Kenmerk.1 en Waarde in respectievelijk geslacht, klas en aantal.

  9. Kies tab Startpagina > Sluiten en laden > Sluiten en laden.

Het resultaat is een tabel met gestructureerde gegevens. Elke kolom is één variabele en elke rij is één waarneming.

Tabel 2.7: Scores2 nu gestructureerd
score geslacht klas aantal
A man klas1 2
A vrouw klas1 1
A man klas2 3
A vrouw klas2 2
B man klas1 5
B vrouw klas1 2
B man klas2 5
B vrouw klas2 3
C man klas1 6
C vrouw klas1 5
C man klas2 3
C vrouw klas2 4
D man klas1 2
D vrouw klas1 4
D man klas2 4
D vrouw klas2 1
E man klas1 0
E vrouw klas1 2
E man klas2 1
E vrouw klas2 5

2.2.3 Variabelen in rijen en kolommen

Een meer gecompliceerde vorm van rommelige gegevens krijg je wanneer er variabelen in zowel rijen als kolommen staan. In het voorbeeld hierna staan de beoordelingen voor een tussentoets en een eindtoets voor vijf studenten, waarbij elk van hen in precies twee van de vijf mogelijke klassen is geplaatst.

Tabel 2.8: Een tabel met variabelen in zowel rijen als kolommen.
naam toets klas1 klas2 klas3 klas4 klas5
Bernard tussentoets B A
Bernard eindtoets B C
Melissa tussentoets A B
Melissa eindtoets C C
Roger tussentoets C B
Roger eindtoets A A
Vicky tussentoets C A
Vicky eindtoets C A
William tussentoets D A
William eindtoets E C

De eerste kolom met de variabele naam is in orde en moet zo blijven. De koppen van de laatste vijf kolommen zijn allemaal waarden van de variabele klas. De waarden in de tweede kolom, tussentoets en eindtoets, moeten eigen variabelen worden met als waarde de beoordeling van de student op dit onderdeel.

Oefening

  1. Download eerst het hulpbestand scores3.xlsx en open het daarna.

  2. Selecteer een willekeurige cel met gegevens en kies tab Gegevens > Vanaf blad (Gegevens ophalen en transformeren). Het dialoogvenster Tabel maken verschijnt, waarin de tabelgegevens gespecificeerd kunnen worden. Het gegevensgebied is standaard al goed ingevuld.

  3. Zorg er voor dat de optie voor kopteksten geselecteerd is en klik OK. Op het werkblad worden de gegevens allereerst in een Excel tabel omgezet. Daarna wordt in een nieuw venster de Power Query-editor opgestart die de gegevens uit de tabel inleest.

  4. Selecteer in de Power Query editor de laatste vijf kolommen klas1 t/m klas5.

  5. Kies tab Transformeren > Draaitabel opheffen voor kolommen (groep Alle kolommen) > Draaitabel opheffen voor kolommen. Er worden twee nieuwe kolommen gemaakt. Een kolom Kenmerk (met de waarden voor variabele klas) en een kolom Waarde met de beoordeling. En voor elke combinatie van naam, toets en klas is een rij gemaakt.

  6. Wijzig de naam van kolom Kenmerk in klas.

  7. Selecteer kolom toets en kies tab Transformeren > Draaikolom (groep Alle kolommen). Het dialoogvenster Draaikolom verschijnt

  8. Kies als Waardenkolom Waarde. En geef onder geavanceerde opties aan dat er niet samengevoegd moet worden.

    Instellingen voor de draaikolom.

    Figuur 2.3: Instellingen voor de draaikolom.

  9. Klik OK.

  10. Kies tab Startpagina > Sluiten en laden > Sluiten en laden.

Het resultaat is een tabel met gestructureerde gegevens. Elke kolom is één variabele en elke rij is één waarneming.

Tabel 2.9: Scores3 nu gestructureerd
naam klas tussentoets eindtoets
Bernard klas1 B B
Bernard klas5 A C
Melissa klas1 A C
Melissa klas3 B C
Roger klas2 C A
Roger klas5 B A
Vicky klas3 C C
Vicky klas4 A A
William klas2 D E
William klas4 A C

2.2.4 Analyse populatie Benelux

In tabel 2.10 staat de populatie mannen en vrouwen in de landen van de Benelux voor de jaren 2000, 2005, 2010 en 2015.

Tabel 2.10: Populatie Benelux voor de jaren 2000, 2005, 2010 en 2015.
Land Geslacht 2000 2005 2010 2015
België Vrouw 5247226 5372650 5566774 5739297
België Man 5034820 5174235 5371961 5548634
Luxemburg Vrouw 221319 231913 255593 282300
Luxemburg Man 214787 225935 252297 284441
Nederland Vrouw 8037448 8251078 8398523 8518105
Nederland Man 7888740 8116075 8284404 8420387

Deze gegevens wil je analyseren en bijvoorbeeld de ontwikkeling van de populatie per geslacht per jaar bestuderen en dat eventueel nog per land. Een draaitabel en draaigrafiek lenen zich daar het beste voor.

Echter de gegevens staan niet in een goed gestructureerde Exceltabel. In feite heeft deze tabel vier variabelen: Land, Geslacht, Jaar en Populatie. De eerste twee variabelen staan in een eigen kolom, dat moet zo blijven. De laatste vier kolomkoppen zijn de waarden van de variabele Jaar en de inhoud van deze kolommen is de waarde van de variabele Populatie. De tabel moet dus eerst gestructureerd worden voordat met de analyse begonnen kan worden.

Oefening

  1. Download eerst het hulpbestand benelux-populatie.xlsx en open het daarna.

  2. Selecteer een willekeurige cel met gegevens en kies tab Gegevens > Vanaf blad (Gegevens ophalen en transformeren). Het dialoogvenster Tabel maken verschijnt, waarin de tabelgegevens gespecificeerd kunnen worden. Het gegevensgebied is standaard al goed ingevuld.

  3. Zorg er voor dat de optie voor kopteksten geselecteerd is en klik OK. Op het werkblad worden de gegevens allereerst in een Excel tabel omgezet. Daarna wordt in een nieuw venster de Power Query-editor opgestart die de gegevens uit de tabel inleest.

  4. Selecteer in de Power Query editor de eerste twee kolommen, met Land en Geslacht.

  5. Kies tab Transformeren > Draaitabel opheffen voor kolommen (groep Alle kolommen) > Draaitabel voor andere kolommen opheffen. Er worden twee nieuwe kolommen gemaakt. Een kolom Kenmerk (met de waarden voor variabele Jaar) en een kolom Waarde met de populatiegetallen. En voor elke combinatie van Land, Geslacht en Jaar is een rij gemaakt.

Je had er ook voor kunnen kiezen om de laatste vier kolommen met de jaartallen te selecteren en dan te kiezen voor het opheffen van de draaitabel voor deze kolommen. Dit heeft als nadeel dat de query niet meer goed werkt wanneer er later in de brongegevens een nieuwe kolom met de populatie voor het jaar 2020 wordt toegevoegd.

  1. Wijzig de namen van de kolommen Kenmerk en Waarde in respectievelijk Jaar en Populatie.

  2. Kies tab Startpagina >Sluiten en laden (groep Sluiten).

De gegevens worden nu in een nieuwe tabel in een nieuw werkblad gezet. De gegevens staan nu in een gestructureerde Excel tabel en zijn nu geschikt voor het maken van draaitabellen en draaigrafieken.

Tabel met gestructureerde populatiedata van de Benelux.

Figuur 2.4: Tabel met gestructureerde populatiedata van de Benelux.

  1. Maak de volgende draaitabel en draaigrafiek.
Draaitabel en draaigrafiek van de populatie per geslacht per jaar.

Figuur 2.5: Draaitabel en draaigrafiek van de populatie per geslacht per jaar.

2.3 Opgaven

  1. In een Excel werkblad kom je de volgende tabel met gegevens tegen.
Tabel 2.11: Voorbeeldtabel met kenmerken van een aantal personen
voornaam geslacht haarkleur lengte gewicht iq
Chris m bruin groot 185 95
Mari v blond groot 176 104
Otto m blond normaal 181 98
Peter m zwart normaal 178 108
Vicky v rood klein 164 112
  1. Hoeveel waarnemingen en hoeveel variabelen telt de dataset in tabel 2.11?
  2. Geef voor elke variabele aan tot welk meetniveau deze variabele behoort.
  1. Bij een onderzoek wordt aan personen gevraagd om bij te houden hoeveel tekstberichten ze per dag versturen en hoeveel tijd ze hieraan besteden. Welke variabelen heb je hier en zijn deze discreet of continu?

  2. Download het hulpbestand koffieprijzen.xlsx. Deze bevat een aantal koffieprijzen van Starbucks, zie tabel 2.12.

Tabel 2.12: Starbucks koffieprijzen voor drie verschillende groottes.
Product Tall Grande Venti
Caffè Latte 3,15 3,65 4,15
Cappuccino 3,15 3,65 4,15
Espresso 2,05 2,55
Caramel Maccchiato 4,05 4,55 5,05
White Caffè Mocha 4,05 4,55 5,05
Caffè Mocha 4,05 4,55 5,05
Vanilla Latte 3,65 4,15 4,65
Caffè Americano 2,55 3,05 3,55
Filter Coffee 2,25 2,75 3,05
  1. Ga na dat de tabel in feite drie variabelen bevat en dat de waarden van een van de variabelen in de kolomkoppen staat.
  2. Maak hiervan een gestructureerde dataset.
  1. Om de kosten van levensonderhoud in Europa te vergelijken zijn via de website van Numbeo voor een aantal plaatsen de gemiddelde marktprijzen verzameld voor brood (wit, 500 gram), kaas(lokaal, 1 kg), melk (gewoon, 1 liter) en rijst (wit, 1 kg). De data staan in het hulpbestand levensonderhoud.xlsx. Voor de eerste 8 plaatsen zijn de gegevens te zien in tabel 2.13.
Tabel 2.13: Gemiddelde prijzen voor vier produkten.
Location Bread Cheese Milk Rice
Aachen, Germany 1,48 9,06 0,69 2,21
Amsterdam, Netherlands 1,41 11,57 1,08 1,86
Antwerp, Belgium 1,64 11,58 0,96 1,56
Arhus, Denmark 2,06 9,97 1,14 1,61
Athens, Greece 0,78 8,27 1,23 1,69
Barcelona, Spain 0,97 10,96 0,84 0,99
Basel, Switzerland 2,52 1,47 3,56
Belfast, United Kingdom 1,12 6,61 1,01 1,12
  1. Maak hiervan een gestructureerde dataset.
  2. In welk land is rijst gemiddeld het goedkoopst en in welk land het duurst?
  1. Op een bepaalde basischool krijgt elke leerling krijgt in elk kwartaal (Herfst, Winter en Lente) van elk jaar een toets voor rekenen en taal. Het bestand rekenentaal.xlsx bevat een beperkte gegevensverzameling hiervan en is te zien in tabel 2.14.
Tabel 2.14: Schoolresultaten voor rekenen en taal.
ID Toets Jaar Herfst Winter Lente
1 Rekenen 2017 61 69 63
1 Rekenen 2018 54 86 56
1 Taal 2017 75 80 75
1 Taal 2018 50 71 59
2 Rekenen 2017 54 82 56
2 Rekenen 2018 63 73 59
2 Taal 2017 56 90 52
2 Taal 2018 77 84 71
3 Rekenen 2017 52 75 54
3 Rekenen 2018 56 86 52
3 Taal 2017 65 77 54
3 Taal 2018 59 94 48

De analyse-eenheid is ID-Jaar-Kwartaal. Dus elke waarneming is die van een leerling gedurende een kwartaal in een bepaald jaar.

  1. Maak hiervan een gestructureerde gegevensverzameling.
  2. Maak een draaigrafiek (staafdiagram) van de gemiddelde scores voor rekenen en taal per jaar