Hoofdstuk 8 Cases

8.1 Pinguins

Op het Palmer Station, Antarctica is door dr. Kristen Gorman gedurende de jaren 2007-2009 een onderzoek bij pinguïns uitgevoerd. Van de drie pinguinsoorten die zijn waargenomen op drie eilanden in de Palmerarchipel zijn gegevens verzameld gedurende de onderzoeksperiode.

Links: de drie soorten pinguïns, Rechts: afmetingen snavel.Links: de drie soorten pinguïns, Rechts: afmetingen snavel.

Figuur 8.1: Links: de drie soorten pinguïns, Rechts: afmetingen snavel.

Van de originele dataset is een vereenvoudigde versie gemaakt. Het bestand pinguins.csv is een in het Nederlands vertaalde versie hiervan met de volgende variabelen:

  • soort - Pinguïnsoort (Adélie, Chinstrap, Gentoo)
  • eiland - Eiland in de Palmerarchipel Antarctica (Biscoe, Dream, Torgersen)
  • snavellengte - Snavellengte (mm)
  • snaveldiepte - Snaveldiepte (mm)
  • vleugellengte- Vleugellengte (mm)
  • gewicht - Lichaamsgewicht (gram)
  • geslacht - Geslacht (vrouwtje, mannetje)
  • jaar - Het jaar waarin de pinguin onderzocht is (2007, 2008, 2009)

Opdracht

Voer een exploratieve data analyse uit voor deze dataset. Ga hiertoe als volgt te werk.

  1. Haal de gegevens uit het bestand pinguins.csv via Power Query in Excel binnen en sla het daarna als een Excelbestand op.
  2. Bestudeer de Exceltabel. Wanneer je wat zaken opvallen, noteer deze dan.
  3. Formuleer een eerste serie met vragen die je beantwoord wilt zien.
  4. Ga creatief aan het werk om deze vragen te beantwoorden. Dat hoeft in deze fase nog niet te resulteren in “nette” resultaten.
  5. Wanneer het onderzoek hiertoe aanleiding geeft, herformuleer dan de eerste serie vragen en vul deze aan met eventuele nieuwe vragen.
  6. Ga hiermee door totdat je de indruk hebt dat je de dataset redelijk kent en de belangrijkste zaken weer kunt geven.
  7. Maak een samenvattend eindverslag van het onderzoek waarin de belangrijkste conclusies naar voren komen. Hierin aanwezige grafieken en tabellen moeten wel netjes opgemaakt en voor de lezers te begrijpen zijn.

8.2 Fooien

Een fooi van een tevreden klant.

Figuur 8.2: Een fooi van een tevreden klant.

Een ober noteerde informatie over elke fooi die hij gedurende een periode van een paar maanden in een restaurant kreeg. Hij verzamelde de volgende variabelen:

  1. rekening: totale kosten maaltijd (euro)
  2. fooi: grootte fooi (euros)
  3. sexe: geslacht persoon die rekening betaalde (m, v)
  4. dag: dag van de week (do, vr, za, zo)
  5. tijdstip: tijdstip van de dag (middag, avond)
  6. groep: aantal personen gezelschap

De data staan in het bestand fooien.xlsx. Bewaar de analyse in een Excelbestand met de naam “fooien-analyse.xlsx”.

Onderzoeksvraag

De hoofdvraag van het onderzoek is: Wat zijn de factoren die de grootte van de fooi beïnvloeden?

Opdracht

Voer een exploratieve data analyse uit om de onderzoeksvraag te beantwoorden.

Suggesties voor het onderzoek:

  • Bepaal de meetschaal van de 6 variabelen.
  • Maak frequentietabellen.
  • Maak een samenvattingsinfo via gegevensanalyse
  • Maak een histogram voor de belangrijkste variabele fooi. De conclusies die je uit een histogram trekt hangen vaak af van de keuze voor de klassebreedte. Experimenteer daarom met verschillende bingroottes van een halve, een hele en twee euro. Kijk welke het meeste inzicht geeft.
  • Ga na of een fooi vaak afgerond wordt op de dichtstbijzijnde 50ct of hele euro.
  • Ga na of een fooi samen met de rekening tot een geheel bedrag wordt afgerond.
  • Ga na of er een relatie is tussen de fooi en de hoogte van de rekening.
  • Zijn er opvallende fooien gegeven?
  • Wat is het gemiddelde percentage voor een fooi?
  • Wat is het prijsniveau van het restaurant?
  • Is er verschil tussen mannen en vrouwen bij het bepalen van de fooi?
  • Is er verschil tussen middag en avond bij het bepalen van de fooi?
  • Is er verschil tussen de dagen?

8.3 Marktwaarde Voetbalclub

Elftalfoto FC Twente, augustus 2020, © Emiel Muijderman

Figuur 8.3: Elftalfoto FC Twente, augustus 2020, © Emiel Muijderman

In deze case doe je onderzoek naar de marktwaarde van de selectie van een voetbalclub.De benodigde data moet eerst samengesteld worden via een webquery. Omdat deze redelijk complex is, wordt in het eerste deel van deze case stapsgewijs beschreven hoe dat in zijn werk gaat. Voor de analyse daarna zul je zelf moeten bedenken hoe deze uitgevoerd moet worden.

Het Duitse bedrijf Transfermarkt publiceert veel data over clubs en spelers, waaronder ook hun inschatting van de marktwaarde van de spelers. Naast een algemene url heeft het bedrijf ook landspecifieke urls’s:

Om analyses met Excel uit te kunnen voeren moet je de gegevens eerst in een werkblad in een geschikt formaat beschikbaar hebben. Een leuke uitdaging met behulp van Power Query. In de stappen hierna zie je hoe dat voor FC Twente uitgevoerd wordt, maar je kunt het natuurlijk ook voor jouw eigen favoriete club uitvoeren. De enige aanpassing is dan de url van de club.

URL achterhalen

Wanneer je de Nederlandse url van Transfermarkt gebruikt is het land Nederland al voor je geselecteerd. Daarna kies je als competitie de Eredivisie en vervolgens de club, in mijn voorbeeld dus FC Twente. In de URL staat ook het actuele seizoen. Wanneer je de query ook voor de nieuwe seizoenen wilt gebruiken kun je beter dit deel uit de URL verwijderen en noteer de URL. Voor FC Twente wordt dat https://www.transfermarkt.nl/fc-twente-enschede/startseite/verein/317 .

Query maken

Nu je de URL gevonden hebt kun je de browser sluiten, Excel opstarten, een lege werkmap openen.

Kies tab Gegevens > Van het web. Voer de genoteerde URL in en klik OK. Na even wachten verschijnt het venster Navigator met in de linkerkant de mogelijke tabellen. Je moet nu uitzoeken in welke tabel de gezochte informatie zit. Wanneer je een tabel selecteert krijg je in het rechterdeel een voorbeeld van de gegevens te zien. Je hoeft niet lang te zoeken want de eerste tabel Table 0 is al de goede tabel.

Selectie van de juiste tabel in Navigator.

Figuur 8.4: Selectie van de juiste tabel in Navigator.

Door gewijzigde omstandigheden kunnen spelers en hun marktwaarde ondertussen gewijzigd zijn.

Klik op de knop Gegevens transformeren. Power Query Editor wordt nu opgestart met daarin de gegevens.

Startscherm Power Query Editor.

Figuur 8.5: Startscherm Power Query Editor.

Verwijder de eerste twee kolommen. Hernoem de kolom met de namen van de spelers in “Speler”. Wijzig de naam van de query in “qryfctwente”.

Kolommen verwijderd, kolomnamen gewijzigd.

Figuur 8.6: Kolommen verwijderd, kolomnamen gewijzigd.

De inhoud van de kolommen Geb./leeftijd en Marktwaarde is niet zodanig dat je er in Excel goed mee kunt werken. Een geboortedatum willen we in de vorm “16-11-1996”. En voor de marktwaarde moet alleen een getal komen. Voor dit herstructureren van gegevens leent Power Query zich uitstekend.

Geboortedatum

Wanneer je de gegevens in de kolom Geb./leeftijd bekijkt dan zie dat dag, maand, jaartal en leeftijd steeds van elkaar gescheiden worden door een spatie. Dat betekent dat je de inhoud van deze kolom kunt splitsen en over vier nieuwe kolommen kunt verdelen.

Selecteer kolom Geb./leeftijd. Kies tab Transformeren > Kolom splitsen (groep Kolom Tekst) > Op scheidingsteken. Selecteer de spatie als scheidingsteken en ook dat er op elke spatie gesplitst moet worden.

Dialoogscherm kolom splitsen

Figuur 8.7: Dialoogscherm kolom splitsen

Klik op OK. De oude kolom is nu verdwenen en er zijn vier nieuwe kolommen voor terug gekomen. Wijzig de naam van de eerste drie kolommen in resp. Dag, Maand en Jaar.

Achter de maandnaam staat een punt. Deze moet verwijderd worden anders kunnen de datumfuncties van Excel er niet mee overweg. Selecteer de kolom Maand. Kies tab Transformeren > Waarden vervangen (groep Alle kolommen). Specificeer voor de te zoeken waarde een punt en laat het vakje voor de te vervangen waarde leeg. Klik OK.

Nu moet er uit dag, maand en jaar een nieuwe kolom met de geboortedata gemaakt worden. Kies tab Kolom toevoegen > Aangepaste kolom. Noem de nieuwe kolom “Geboortedatum” en voer de volgende formule achter = in: Text.From([Dag]) & "-" & [Maand] & "-" & Text.From([Jaar])

Aangepaste kolom.

Figuur 8.8: Aangepaste kolom.

Klik op OK. Het gegevenstype van deze kolom moet nog op Datum gezet worden. Met de kolom Geboortedatum nog geselecteerd kies je tab Startpagina > Gegevenstype (groep Transformeren) > Datum.

Leeftijd

De leeftijden zijn negatief, veroorzaakt doordat in de brondata de leeftijden tussen haakjes staan. Dat kan gewijzigd worden door een nieuwe kolom Leeftijd te maken met daarin de absolute waarde van het veld.

Kies tab Kolom toevoegen > Aangepaste kolom. Noem de nieuwe kolom Leeftijd en voer de volgende formule in: Number.Abs([#"Geb. / leeftijd.4"]).

Opmerking zodra je begint met het intypen van het woord Number verschijnen automatisch de mogelijke functies. In plaats van de formule in te typen kun je ook de functie selecteren. Ook het veld kun je invoegen door klikken.

Verwijder nu de overbodige kolommen Dag, Maand, Jaar en Geb. / leeftijd.4.

Nu met kolom Leeftijd.

Figuur 8.9: Nu met kolom Leeftijd.

Marktwaarde

De gegevens in de kolom Marktwaarde eindigen allemaal met . €. Dit moet eerst verwijderd worden.

Selecteer de kolom Marktwaarde. Kies tab Transformeren > Waarden vervangen (groep Alle kolommen). Specificeer voor de te zoeken waarde . € en laat het vakje voor de te vervangen waarde leeg. Klik OK.

De inhoud van de kolom Marktwaarde bestaat nu uit een getal en een tekstaanduiding voor de eenheid, welke van elkaar gescheiden zijn door een spatie. Ga op dezelfde manier als bij geboortedatum te werk om deze kolom te splitsen op de spatie. De oude kolom wordt hierdoor vervangen door twee nieuwe kolommen: Marktwaarde.1 met het getal en Marktwaarde.2 met de eenheid.

De tekst van deze eenheid ga je nu vervangen door het overeenkomstige getal. Selecteer kolom Marktwaarde.2. Vervang nu de waarde dzd door 1000 en daarna de waarde mln door 1000000. Wijzig daarna het gegevenstype van deze kolom in Geheel getal.

Nu kan er een nieuwe kolom Marktwaarde door de inhoud van de twee kolommen met elkaar te vermenigvuldigen. Kies tab Kolom toevoegen > Aangepaste kolom. Noem de nieuwe kolom Marktwaarde en voer de volgende formule in: [Marktwaarde.1]*[Marktwaarde.2] en klik daarna op OK. Verwijder vervolgens de overbodig geworden kolommen Marktwaarde.1 en Marktwaarde.2. Wijzig tot slot het gegevenstype van deze kolom in Valuta.

Kolom Marktwaarde opgenomen.

Figuur 8.10: Kolom Marktwaarde opgenomen.

Laden in Excel

De query is nu klaar en de gegevens kunnen in een Excel werkblad geladen worden. Kies tab Startpagina > Sluiten en laden.

Maak in het Excel werkblad de inhoud van Marktwaarde op als Valuta zonder decimalen.

Voeg tot slot een totaalrij toe via tab Tabelontwerp > aanvinken Totaalrij (groep Opties voor tabelstijlen).

De tabel in het Excel werkblad.

Figuur 8.11: De tabel in het Excel werkblad.

Wanneer de marktwaarde van een speler wijzigt, er spelers vertrekken of bijkomen, hoef je alleen maar de query te vernieuwen via tab Gegevens > Alles vernieuwen (groep Query’s en verbindingen).

Opdracht

Voer een verkennnend onderzoek onderzoek uit naar de dataset.

Suggesties voor het onderzoek:

  • Bij een aantal spelers is geen nationaliteit vermeld is, terwijl op de website deze wel te zien is. Probeer hiervoor een verklaring te vinden.
  • Van sommige voetbalclubs wordt wel eens gezegd dat de selectie een vreemdelingenlegioen is. Is dat hier ook het geval?
  • Bepaal voor Leeftijd en Marktwaarde de modus, mediaan, gemiddelde en standaarddeviatie.
  • Is het een jonge selectie?
  • Maak een frequentieverdeling van Leeftijd met een bijbehorende kolomdiagram.
  • Zit de grootste salarisdruk bij de oudere spelers?
  • Verdienen buitenlandse spelers gemiddeld meer dan Nederlandse spelers?
  • Welke leeftijdsgroep verdient gemiddeld het meest?
  • Is er een relatie tussen Leeftijd en Marktwaarde?

In verband met gewijzigde omstandigheden moet je in elke rapportage altijd de datum vermelden waarop de data verzameld is.

8.4 Gemiddelde betaaltermijn

Iris.

Figuur 8.12: Iris.

IRIS BV heeft cashflow problemen sinds de uitbraak van de Corona crisis. In deze bijzondere tijden is het voor het bedrijf nog belangrijker dan anders om de liquiditeitspositie onder controle te houden. Belangrijk is dat de debiteuren sneller aan IRIS BV gaan betalen. Vanaf 1 juli 2020 is er daarom speciale actie van kracht. Klanten krijgen korting op de volgende orde als ze sneller betalen. Een medewerker is vrijgemaakt om bij de klanten langs te gaan en ze over deze actie te informeren. Die medewerker gaat actief achter debiteuren aan als een factuur meer dan 30 dagen openstaat.

In het databestand Gemiddelde betaaltermijn.xlsx vind je de benodigde gegevens.

Vragen:

  1. Wat was de gemiddelde betaaltermijn per klant in de eerste helft van 2020?
  2. Wat was de gemiddelde betaaltermijn in totaal in de eerste helft van 2020?
  3. Wat was de gemiddelde betaaltermijn per klant in de tweede helft van 2020?
  4. Wat was de gemiddelde betaaltermijn in totaal in de tweede helft van 2020?
  5. Welke data zou je nog meer nodig hebben om uit te rekenen of de actie financieel wat heeft opgeleverd voor IRIS BV?

8.5 Beisterkamp

Een van de vrachtwagens van Beisterkamp

Figuur 8.13: Een van de vrachtwagens van Beisterkamp

Beisterkamp Transport BV is een middelgrote transportonderneming gevestigd in Oldenzaal. Het bedrijf heeft een kleine vloot van 10 vrachtwagens en heeft evenveel chauffeurs in dienst. De concurrentie in de transportwereld is groot en de marges per kilometer zijn klein. Belangrijke kostenposten voor het bedrijf zijn het dieselverbruik en de uren van de chauffeurs. De directie wil weten of er op deze twee posten geld bespaard kan worden. Jij bent net begonnen als junior-controller bij Beisterkamp en de directie heeft jou gevraagd om met adviezen te komen.

In het databestand beisterkamp.csv vind je de data over de afgelegde kilometers, het dieselverbruik in liters en het aantal geboekte uren in 2020. Begin met een nieuwe lege werkmap, importeer hierin de gegevens en voer hierin alle analyses uit. Bewaar het bestand onder de naam “beisterkamp.xlsx”.

Zie hieronder de data van week 1.

Tabel 8.1: Data week 1
Weeknummer Chauffeur Vrachtwagen Kilometers Liters Uren
1 Rick XL-ZZ-88 2446 856 58
1 Damien GH-DF-63 2573 918 65
1 Mo TF-JH-99 1693 564 37
1 Berend DE-NB-42 1334 507 27
1 Bert WL-FD-67 1865 833 35
1 Rachid SW-KL-92 2484 969 48
1 Henk BN-TR-58 1440 518 34
1 Jill GF-LK-32 1476 443 27
1 Harry CV-NM-53 2597 978 66
1 Danny HJ-KH-79 2165 953 50

Belangrijk om te weten:

  • Het aantal gereden kilometers wordt aan het eind van elke week uitgelezen uit de boardcomputers van de vrachtwagens. Dit systeem is echter niet helemaal foutloos. Soms zit er een niet te verklaren afwijking met de werkelijkheid in.
  • De gegevens over het dieselverbruik komen van het eigen kleine tankstation in Oldenzaal. Chauffeurs zijn verplicht om daar aan het einde van de dag, de vrachtwagen weer vol te tanken. Ook in dit systeem zitten helaas nog wat storingen. Een enkele keer klopt de geregistreerde getankte hoeveelheid niet.
  • Alle chauffeurs moeten in principe elke dag, maar in ieder geval elke week, hun uren boeken in het uren-registratie systeem van Beisterkamp. De chauffeurs worden betaald aan de hand van de geboekte uren. Niet alle chauffeurs zijn even handig en nauwkeurig bij het boeken van de uren in het verouderde systeem.
  • De chauffeurs hebben geen vaste vrachtwagen voor het hele jaar, maar wisselen per week van vrachtwagen.
  • De chauffeurs hebben geen vaste routes en/of klanten. Het werk wordt willekeurig verdeeld.
  • Elke vrachtwagen heeft een navigatiesysteem. Dit systeem berekent de optimale route per dag door Nederland voor de chauffeurs. De chauffeurs zijn verplicht deze voorgestelde route te volgen.
  • Chauffeurs mogen rijtijd, laad/lostijd, tanken en pauzes als uren registreren.

Onderzoeksvraag

De hoofdvraag van het onderzoek is: Welke adviezen kun je de directie van Beisterkamp geven om te besparen op het dieselverbruik en het aantal uren?

Deelvragen

  1. Is er een verschil in gemiddeld dieselverbruik tussen de chauffeurs? Wie rijdt het zuinigst en wie heeft het hoogste verbruik?
  2. Is er een verschil in gemiddeld dieselverbruik tussen de vrachtwagens? Welke rijdt het zuinigst en welke heeft het hoogste verbruik?
  3. Is er een verschil in het gemiddeld aantal geboekte uren tussen de chauffeurs? Wie boekt gemiddeld het meest en wie het minst in totaal en per kilometer?
  4. Welke fouten in de registratie van kilometers, dieselverbruik en uren kun je ontdekken? Maak bijvoorbeeld gebruik van een spreidingsdiagram om deze storingen zichtbaar te krijgen.
  5. Moeten deze fouten niet eerst worden opgelost voor je deelvraag 1, 2 en 3 kunt beantwoorden? Bedenk zelf een manier om van de fouten af te komen en beantwoordt deelvraag 1, 2 en 3 opnieuw.

8.6 Ziekteverzuim

Zo pakt Universiteit Wageningen het ziekteverzuim aan.

Figuur 8.14: Zo pakt Universiteit Wageningen het ziekteverzuim aan.

Een bedrijf heeft een onderzoek naar het ziekteverzuim en tevredenheid uitgevoerd onder al haar 75 werknemers. Voor het tevredenheidsonderzoek zijn een twaalftal stellingen voorgelegd aan de medewerkers. Per stelling kon de medewerker een score op een 5-punts schaal geven. Die scores zijn opgeteld en weergegeven in de kolom Tevreden. De cijfers met betrekking tot het ziekteverzuim komen van de afdeling administratie.

De data staan in het bestand ziekteverzuim.xlsx. Bewaar de analyse in een Excelbestand met de naam “ziekteverzuim-analyse.xlsx”. In het werkblad “Data” staan de verzamelde gegevens en in het werkblad “Codeboek” vind je een toelichting op de variabelen Het bestand geeft informatie over geslacht, leeftijd, afdeling waar de werknemer actief is, burgerlijke staat, het aantal dienstjaren bij de onderneming, een functieschaal en een salarisindicatie. De laatste 4 kolommen geven informatie over ziekmelding en ziektedagen in 2012 en 2013.

Onderzoeksvraag

De hoofdvraag van het onderzoek is: Breng het ziekteverzuim in beeld en onderzoek of er een relatie is met de tevredenheid van de werknemer

Opdracht

Voer een exploratieve data analyse uit om de onderzoeksvraag te beantwoorden.

Suggesties voor het onderzoek:

  • Maak een beschrijving van de gegevens via samenvattingen en grafieken. Denk hierbij ook na over wat je aan moet met de vraagtekens in de tabel.
  • Onderzoek de leeftijdsopbouw.
  • Onderzoek of er samenhang is tussen de verschillende werknemerskenmerken en het ziekteverzuim. Bijvoorbeeld
    • tussen mannen en vrouwen
    • tussen de afdelingen
    • verband met het salaris
    • verband met de tevredenheid
  • Onderzoek of er samenhang is tussen andere variabelen.
  • Vergelijk de salarissen van mannen en vrouwen bij deze onderneming, wat is je conclusie?
  • Is het ziekteverzuim in 2013 significant hoger of lager dan in 2012, hoe stel je dat vast?