Selecteer een pagina

De Britten gaan vóór de EU stemmen en Clinton gaat de verkiezingen in Amerika winnen. Tenminste, dat vertelden de peilingen ons. Mooi niet dus. In een half jaar tijd zaten bijna alle voorspellers er naast. De Brexit is inmiddels ‘in progress’ en de heer Trump is al bezig met de inrichting van ‘zijn’ White House. Los van dat bijna iedereen zich afvraagt wat er met de wereld aan de hand is, vragen ook veel mensen zich af hoe het toch kan dat zulke grote bedrijven, die over veel data beschikken, er toch zó naast kunnen zitten. Wat gaat er verkeerd?

Peilingen: het meten van de meningen van mensen ten aanzien van een onderwerp. Aan de hand van de uit een steekproef verzamelde (relevante) gegevens worden er voorspellingen gedaan. Hoe dat werkt? Er worden mensen geselecteerd die overeenkomen met het profiel van de totale doelgroep. Aan hen wordt gevraagd hoe ze tegenover het onderwerp staan. Hierop worden de uitkomsten vervolgens gebaseerd.

Steekproef wordt populatie
Mede door het internet staat iedereen met elkaar in verbinding. Er is een netwerkeconomie ontstaan waarin kennis overal voor het oprapen ligt. De inmiddels ontstane enorme hoeveelheid gegevens wordt Big Data genoemd. De stelling van velen is dat door de ontwikkeling van Big Data, de steekproef langzamerhand verandert in de gehele populatie. Als van (nagenoeg) iedereen gegevens beschikbaar zijn over een bepaald onderwerp, dan kunnen er betere en scherpere voorspellingen gedaan worden. Op dit moment, midden in de transitie van steekproef naar populatie, mogen we toch verwachten dat er ook nu al betere voorspellingen te doen zijn? De toekomst blijkt echter nog steeds geen zekerheid, zo zagen we in de falende peilingen.

Wat ging er mis?
Natuurlijk kan er een hoop fout zijn gegaan. Misschien hadden de ‘peilers’ niet de juiste afspiegeling van de samenleving te pakken. Misschien zeiden respondenten wel dat ze A zouden zeggen, maar deden ze uiteindelijk B. Uit schaamte? Op advies van mensen uit hun referentiekader? Misschien verdiepten ze zich vlak voor het keuzemoment wel beter in de materie en kwamen ze tot nieuwe inzichten. Een hoop mogelijkheden. Feit blijft dat de beschikbare gegevens niet juist waren, óf verkeerd zijn geïnterpreteerd. De rekenmodelletjes worden nu weer bijgewerkt, de nuance in de onderzoeken wat verlegd. Gaat dat het verschil maken voor de volgende keer?

Causaal verband
Het lastige van data blijft het interpreteren er van. Je kunt op veel verschillende manieren naar cijfertjes kijken en verschillende conclusies uit eenzelfde onderzoek trekken. In de onderzoekswereld is men vaak op zoek naar een causaal verband: een verband tussen twee of meer feiten. Die verbanden zijn echter erg moeilijk hard te maken. Als uit gegevens bijvoorbeeld blijkt dat zestig procent van de potentiële stemmers tegen behoud van de wapenwet is en vóór het homohuwelijk, wil dat nog niet zeggen dat ze allemaal op een democraat gaan stemmen. Misschien hebben ze wel een grote hekel aan de beschikbare kandidaat, of vinden ze andere waarden uit het programma van de tegenpartij belangrijker.

Al met al blijft het lastig om menselijk gedrag te voorspellen, ook aan de hand van enorm veel data. Het kunnen nemen van de juiste beslissingen aan de hand van gegevens, valt of staat met de interpretatie ervan. Daarom blijft het van cruciaal belang eerst de beweegredenen van mensen te doorgronden, alvorens er conclusies getrokken worden. Pas als data en de juiste invalshoek elkaar raken, vallen er zinnige conclusies te trekken.