OpinieGeert Loosveldt
Waarom opiniepeilingen altijd (on)juist zijn
Geert Loosveldt is emeritus professor met opdracht aan de KU Leuven, Centrum voor Sociologisch Onderzoek (CeSO).
“Opiniepeilingen zijn uitgegroeid tot politieke feiten van de hoogste orde”, schreef Bart Eeckhout hier vorige week. Zo leidde De Stemming tot het ontslag van een partijvoorzitter en een minister, en ontstond ophef over de ‘opinie’ van Vlamingen over mensen met andere roots. De peiling zelf kwam daarbij ook onder vuur te liggen.
Of die particuliere kritiek terecht was of niet, daarover ga ik me niet uitspreken. Wel wil ik nu het stof is gaan liggen antwoorden op de vraag die ik vaak krijg: zijn peilingen betrouwbaar?
Laten we beginnen bij het begin. Met behulp van opiniepeilingen willen we nagaan wie wat denkt over bepaalde maatschappelijke kwesties. Peilingen kunnen worden gebruikt om inzicht te verwerven in de beleidsvoorkeuren van burgers en om het draagvlak voor bepaalde beleidsmaatregelen te evalueren.
Dit is bijvoorbeeld het geval met de Grote Coronastudie van de Universiteit van Antwerpen, die in maart 2020 werd opgestart om te informeren hoe de mensen omgaan met de coronacrisis en wat ze denken over de maatregelen om de pandemie te managen. De Motivatiebarometer van de UGent is een gelijkaardige peiling naar het psychologisch welbevinden tijdens de Covid-19-crisis in België.
Er zijn ook politieke peilingen. Een recent voorbeeld is dus De Stemming in opdracht van de VRT en De Standaard. De belangrijkste doelstellingen van een politieke peiling zijn het in kaart brengen van wat mensen denken over actuele politieke thema’s, het bepalen van de populariteit van politieke partijen en politici, en het registreren van de partijvoorkeur en kiesintenties van de burgers bij de volgende verkiezingen. Op basis van politieke peilingen wil men doorgaans ook suggereren wie de volgende verkiezingen zou kunnen winnen. Bij dit soort voorspellingen wil het al eens fout lopen – herinner u de Amerikaanse presidentsverkiezingen van 2016 – en hierdoor hebben voornamelijk politieke peilingen een kwalijke reputatie gekregen.
Steekproeven
Waarom en wanneer zijn opiniepeilingen (on)juist? Om uitspraken te kunnen doen over wat mensen denken over bepaalde onderwerpen is het niet mogelijk om alle personen van een bevolking te bevragen. Om uitspraken te kunnen doen over de bevolking wordt daarom gewerkt met steekproeven. Een steekproef bevat informatie over een subset van personen die op toevallige wijze werden geselecteerd. De beschikbare informatie is beperkt en bijgevolg zal elke uitspraak over de bevolking waaruit de steekproef is getrokken gepaard gaan met onzekerheid.
Als we uit dezelfde bevolking twee toevalsteekproeven zouden nemen, om bijvoorbeeld het aandeel te kennen van personen die bereid zijn zich te laten vaccineren, dan zouden we in beide steekproeven niet hetzelfde percentage bekomen. Op basis van de informatie in de steekproef kunnen we het aandeel dat bereid is om zich te laten vaccineren niet exact bepalen. Werken met steekproeven impliceert onzekerheid die mee in rekening moet worden gebracht bij de interpretatie van de resultaten. Die onzekerheid kan met behulp van statistische procedures gekwantificeerd worden. Als bijvoorbeeld uit een bevraging van een steekproef blijkt dat 92 procent van de bevolking bereid is om zich te laten vaccineren, dan kunnen we berekenen dat met een betrouwbaarheid van 95 procent dit percentage (92 procent) zich in een bepaald interval zal situeren (bijvoorbeeld tussen de 90 en de 94 procent).
De onzekerheid komt dus tot uiting door te werken met een interval en een bepaald betrouwbaarheidsniveau. Een voorwaarde om dergelijke intervallen te bepalen is dat er gewerkt wordt met toevalsteekproeven. We kunnen de onzekerheid ook reduceren door ervoor te zorgen dat we beschikken over meer informatie. Concreet betekent dit dat we gaan werken met grotere steekproeven en dus een groter aantal personen bevragen. Wanneer we de onzekerheid op een correcte wijze verwerken, dan kunnen we op basis van peilingen waarbij gewerkt wordt met toevalsteekproeven komen tot correcte uitspraken over de populatie. Als bijkomende voorwaarde moet daarbij nog vermeld worden dat diegenen die ondervraagd worden wel een eerlijk antwoord moeten geven op de gestelde vragen. Maar laten we focussen op het gebruik van toevalsteekproeven.
Het op toevallige wijze selecteren van personen uit de bevolking moet ervoor zorgen dat de steekproef een goede afspiegeling is van de bevolking. De toevalselectie zorgt ervoor dat de steekproef representatief is. Het belang van representatieve steekproeven om tot juiste resultaten te komen omtrent de populatie mag niet onderschat worden. Dit blijkt onder andere uit een grondige analyse van de peilingen voorafgaand aan de parlementsverkiezingen van 2015 in het Verenigd Koninkrijk. De peilingen voorspelden een klein verschil tussen de Conservative Party en Labour. Het werd echter een afgetekende overwinning voor de Conservative Party (37,7 versus 31,2 procent). Bij de peilingen in het VK werd, net zoals bij De Stemming, gebruik gemaakt van quotasteekproeven die niet voldoen aan de voorwaarden van een toevalsteekproef. Op basis van de evaluatie van de peilingen bleek dat het gebruik van niet-representatieve quotasteekproeven de belangrijkste oorzaak was van de foutieve voorspellingen van het verkiezingsresultaat. Dit resultaat beklemtoont het belang van op toeval gebaseerde representatieve steekproeven in peilingsonderzoek.
Toevallig of niet
Bij het werken met steekproeven kan er grosso modo een onderscheid gemaakt worden tussen steekproeven waarbij de selectie van de personen gebeurt op toevallige wijze (probability based) en steekproeven waarbij dat dit niet gebeurt (non-probability based). De eerder vermelde voorbeelden – de Grote Coronastudie, de Motivatiebarometer en De Stemming – maken geen gebruik van toevalsteekproeven. De deelnemers voor het onderzoek worden via allerhande websites en (sociale) media uitgenodigd om deel te nemen. Bij De Stemming maakt men gebruik van bestaande panels die op die wijze werden samengesteld. Kenmerkend is dat het niet de onderzoekers zijn die op toevallige wijze personen selecteren en vragen om deel te nemen. Het zijn de personen van de populatie die zelf het initiatief nemen om deel te nemen. Op basis van deze werkwijze kun je op zeer korte tijd gegevens verzamelen bij een grote groep personen, maar de steekproef is gebaseerd op zelfselectie. Dat is niet zonder risico. De zelfselectie kan namelijk systematisch zijn. Specifieke groepen hebben bijvoorbeeld meer interesse in het onderwerp en hebben een grotere bereidheid om mee te werken. Met andere woorden: door de zelfselectie kan een vertekening ontstaan die ertoe leidt dat de steekproef niet representatief is en dat aan een noodzakelijk voorwaarde om te komen tot correcte resultaten niet is voldaan.
De onderzoekers van de Grote Coronastudie en de Motivatiebarometer waren zich bewust van het gevaar van zelfselectie en waarschuwden daarvoor bij de interpretatie van de gegevens, zeker wanneer het gaat om het schatten van de relatieve omvang van groepen met een bepaald kenmerk (bijvoorbeeld het percentage dat voorstander is van een verplichte vaccinatie). Met een dergelijke terechte waarschuwing wordt bij de rapportering in de media zelden rekening gehouden.
Om het gebruik van niet-toevallige steekproeven te verantwoorden wordt soms verwezen naar de grote hoeveelheid gegevens die je op een heel korte periode kunt verzamelen. De omvang van de groep die heeft meegewerkt wordt dan impliciet gezien als een remedie voor de impact op de resultaten van de onder- en oververtegenwoordiging van bepaalde groepen. Dit is een misvatting. Het is niet omdat veel personen hebben deelgenomen dat de mogelijke vertekening van de resultaten kleiner wordt. Kwantiteit kan het gebrek aan kwaliteit niet remediëren. Onlangs werd bijvoorbeeld vastgesteld dat online bevraging van grote niet-representatieve steekproeven (Delphi-Facebook’s COVID 19 tracker: 250.000/week; US Census Bureau’s Household Pulse Survey: 75.000/ronde) resulteerde in een significante overschatting van de vaccinatiegraad.
De vertekening ten gevolge van de systematische zelfselectie wordt soms gecorrigeerd door een weegprocedure toe te passen. Als er bijvoorbeeld te weinig mannen hebben meegewerkt, dan kun je elke man die wel heeft meegewerkt een iets groter gewicht toekennen zodat in de analyse met de correcte proportie mannen wordt gewerkt. Toch is ook dat zeker niet altijd een doeltreffende remedie tegen mogelijke vertekening door onder- of oververtegenwoordiging.
Een belangrijke voorwaarde is namelijk dat de groepen die bij een weegprocedure gebruikt worden representatief zijn. Neem bijvoorbeeld een groep 65-plussers die een groter gewicht moet krijgen omdat ze ondervertegenwoordigd zijn in je steekproef. Dan moet je eerst nakijken dat er niet te veel ‘jongeren’ van 66 tot 70 hebben deelgenomen, en te weinig van 75 en ouder. Bij een onlinebevraging kun je zo’n situatie wel verwachten. Als aan de voorwaarde niet voldaan is, wordt het probleem bij het toepassen van een weegprocedure zelfs groter.
Zijn peilingen altijd correct? Ja, wanneer er aan álle voorwaarden is voldaan. Maar dit is bijzonder moeilijk en doorgaans niet het geval. Een belangrijke voorwaarde is dat er gewerkt wordt met een op toeval gebaseerde representatieve steekproef. Het idee dat we online met niet op toeval gebaseerde steekproeven snel een grote hoeveelheid informatie kunnen verzamelen en snel kunnen inspelen op de actualiteit is verleidelijk. We weten evenwel dat het werken met niet-representatieve steekproeven een groot risico inhoudt. Een grote hoeveelheid informatie en een weegprocedure zijn geen garantie om het risico op foute peilingsresultaten te beperken.
Werken met onlinebevragingen met niet op toeval gebaseerde steekproeven is evenwel courante praktijk geworden bij het organiseren van opiniepeilingen. Kortom, de resultaten van peilingen die niet op een toevalsteekproef zijn gebaseerd kan men best met de nodig voorzichtigheid gebruiken en duiden in de media. Dat laatste is voor grote verbetering vatbaar.