Voorwoord
Er zijn twee hoofdtakken binnen de statistiek:
- Inferentiële statistiek
-
Hierbij wordt een kleine steekproef gebruikt om conclusies te trekken over een grote populatie van gegevens. Deze statistiek komt weinig aan bod in deze cursus.
- Beschrijvende statistiek
-
Hierbij worden kenmerken van gegevens beschreven met behulp van samenvattende gegevens, grafieken en tabellen.
In dit studieboek zal voornamelijk aandacht besteed worden aan
- Beschrijvende statistiek - Het verzamelen, organiseren, visualiseren en interpreteren van gegevens.
- Exploratieve Data Analyse - Het verkennen en samenvatten van de belangrijkste kenmerken van de dataset met voornamelijk grafische technieken.
- Regressie - Het zoeken naar verbanden tussen gegevens.
- Voorspellen - Het schatten van toekomstige waarden, vooral bij tijdreeksen.
Statistiek speelt een belangrijke rol bij de besluitvorming voor het bedrijfsleven en de overheid, waaronder marketing, strategische planning, productie, financiën, kwaliteitscontrole, voorraadtellingen, cycle-counting, voorspellingen (afzet, cashflow, orders, drukte, …)
Belangrijk is ook het meten van onzekerheid. Onzekerheid is de fout bij het schatten van een parameter, zoals het gemiddelde van een steekproef, of het verschil in gemiddelden tussen twee experimentele behandelingen, of de voorspelde toekomstige omzet. Onzekerheid ontstaat door variatie in de gegevens.
Excel is niet ontworpen om als een statistische toepassing te dienen en heeft daardoor wel enige beperkingen vergeleken met echte statistische programma’s als SPSS, SAS, Stata en R. Ook een programmeertaal als Python heeft meer mogelijkheden. Desondanks heeft Excel meerdere statistische mogelijkheden die niet bij iedereen bekend zijn. En waar Excel tekortkomingen heeft kun je die uitbreiden met zogenaamde add-ins. Een zo’n add-in is Real Statistics welke gratis te gebruiken is. Bij de onderdelen in deze tutorial wordt alleen van de standaard in Excel aanwezige mogelijkheden gebruik gemaakt.
Organisatie studieboek
Dit studieboek heeft een logische opbouw, beginnend met het verkrijgen van de data, het bestuderen daarvan, het onderzoeken van verbanden tot het trekken van conclusies. Daarna kan de verkregen kennis toegepast worden in cases.
1 Importeren van data richt zich op het verkrijgen van data en het eventuele opschonen hiervan. Dat gebeurt met de in Excel ingebouwde Power Query Editor. Dit hoofdstuk kun je overslaan wanneer je met dit proces voldoende bekend bent.
2 Data en Variabelen behandelt soorten data en het structureren hiervan zodat de data geschikt is voor verdere analyse.
3 Beschrijvende statistiek behandelt de beschrijvende statistiek, het ordenen en samenvatten van de data. Met in 3.4 Grafieken de belangrijkste grafiektypes.
4 Samenhang en lineaire regressie behandelt de samenhang tussen variabelen en enkelvoudige lineaire regressie.
5 Tijdreeksen legt uit wat tijdreeksen zijn, waaruit deze bestaan en hoe je een voortschrijdend gemiddelde maakt.
6 Prognoses wordt ingegaan op een aantal mogelijkheden om prognoses (voorspellingen) van toekomstige waarden te maken.
7 Exploratieve Data Analyse gaat in op het proces van de Exploratieve Data Analyse (EDA).
8 Cases bevat een aantal cases.
9 Machine Learning is een hoofdstuk in ontwikkeling waarin met kleine eenvoudige voorbeelden enkele Machine Learning methodes worden uitgelegd.
Software
In dit studieboek wordt gewerkt met Excel 365 NL. Voor het grootste deel van de inhoud kun je ook met Excel 2010, 2013, 2016 en 2019 werken.
Data Analysis Toolpak (Gegevensanalyse)
Voor veel opdrachten en taken in dit studieboek heb je de invoegtoepassing Data Analysis Toolpak (Gegevensanalyse) nodig. Deze bevat diverse hulpmiddelen voor het uitvoeren van analyses. Het wordt standaard met Excel meegeleverd, je hoeft het dus niet te installeren. Echter het moet wel geactiveerd zijn en dat is niet altijd het geval.
In Bijlage A — Addin Gegevensanalyse wordt aangegeven hoe je dit kunt controleren en zonodig de activering kunt uitvoeren.