Oh ja, de foutenmarge is ± 3,2 %

Nieuwe peiling: N-VA duikt onder 30 procent (standaard.be)

N-VA duikt onder de 30 procent in nieuwe peiling (demorgen.be)

N-VA duikt onder de 30 procent in nieuwe peiling (deredactie.be)

N-VA duikt onder de 30 procent in nieuwe peiling (hln.be)

N-VA duikt onder onder de 30 procent in nieuwe peiling (knack.be)

Gekibbel zet N-VA en CD&V op verlies (mijn eigen tijd.be)

Nee, ik wil het hier niet hebben over het overnemen Belgaberichten, originele koppen of het gebruik van ‘%’ vs. ‘procent’. Ik wil het hier hebben over betrouwbaarheidsintervallen.

RTBF en La Libre Belgique laten het marktonderzoeksbureau Dedicated om de drie maanden een politieke barometer opmaken over de ‘kiesintenties en preoccupaties van de Belgen’, aldus de website van Dedicated (hoewel daar Le Soir wordt vermeld in plaats van La Libre).

In alle gevallen, behalve het artikel op tijd.be, zijn dit de afsluitende zinnen van het artikel:

De peiling werd afgenomen tussen 5 en 9 maart 2015 bij 911 Vlamingen, 907 Brusselaars en 908 Walen. De foutenmarge bedraagt voor elk van de groepen 3,2 procent.

Dat brengt ons meteen bij de kern van het probleem: de N-VA haalt in de peiling 28,8 procent, wat de marge met de magische 30 procent op 1,2 procent legt. Dat is beduidend lager dan de foutenmarge van 3,2 procent.

1000 Vlaamse kiezers

De bedoeling van een peiling is door middel van een enquête uitspraken te kunnen doen over de volledige populatie, in dit geval alle kiesgerechtigde Vlamingen. Maar telkens alle Vlamingen boven de 18 jaar bevragen is natuurlijk onmogelijk. Dat kost te veel tijd en en geld en daarom doen we dat enkel bij de verkiezingen zelf.

Onderzoeksbureau’s als Dedicated voeren daarom steekproeven uit onder de bevolking: uit een lijst met telefoonnummers kiezen ze een duizendtal personen uit die worden gecontacteerd om hun kiesintenties bekend te maken. Om betrouwbaar te kunnen zijn moet iedere Belg (of Vlaming) in principe evenveel kans maken om zo opgebeld te worden. We gaan er in dit artikel van uit dat dit voor deze steekproef het geval is (hoewel het heel goed mogelijk is dat dit niet zo is).

In tegenstelling tot echte verkiezingen, brengen steekproeven een mate van onzekerheid met zich mee. Een voorbeeld.

Stel dat het echte percentage N-VA-stemmers in Vlaanderen op dit moment exact 30 procent zou zijn. Dit valt moeilijk heel nauwkeurig te meten, maar we doen een poging om dit door middel van een politieke peiling te onderzoeken. We bellen willekeurig 1000 Vlamingen op en vragen op wie zij zouden stemmen als er vandaag verkiezingen zouden zijn. Van die 1000 zijn er 288 die aangeven N-VA te zullen stemmen. In deze peiling scoort de N-VA dus 28,8 procent.

Maar helaas gaan door een defecte harde schijf bij het peilingbureau de resultaten van deze peiling verloren. Er zit niets anders op dan opnieuw willekeurig 1000 mensen op te bellen. En tot de stomme verbazing van de peilers zijn er bij deze 1000 kiezers plots 321 N-VA stemmers. N-VA haalt plots 32,1 procent van de stemmen, wel 3,3 procent meer dan bij de eerste peiling, een paar uur daarvoor!

Het persbericht dat de peilers op basis van de eerste peiling hadden opgemaakt (‘N-VA duikt onder de 30 procent’) wordt samen met de kapotte harde schijf naar de prullenmand verwezen en vervangen door het bericht ‘N-VA ruim boven de 30 procent’.

Terwijl het echte percentage N-VA kiezers dus 30 % bedraagt, kunnen twee peilingen, met hetzelfde aantal ondervraagden, afwijkende resultaten opleveren. Hoe komt dat? Wel, toeval bij het selecteren van de ondervraagden creëert onzekerheid in de resultaten.

10 Vlaamse kiezers

Stel nu dat we in plaats van 1000 kiezers op te bellen, er maar 10 zouden opbellen. Door stom toeval zou het wel eens kunnen dat er zich onder deze 10 mensen geen enkele N-VA-stemmer bevindt (dus N-VA: 0 procent). Het zou ook wel eens kunnen dat het er 8 zijn (80 procent) of misschien zijn het toevallig alle 10 N-VA-stemmers (100 procent).

Hoe minder mensen we opbellen, hoe kleiner de steekproef is en hoe groter toeval het eindresultaat bepaalt. Als we 100 mensen zouden opbellen, zou het toch heel toevallig moeten zijn moesten dit allemaal N-VA-stemmers zijn. En als het er 1000 zijn, mogen we er van uitgaan dat de resultaten van de peiling in de buurt van de werkelijkheid liggen.

Betrouwbaarheidsintervallen

Maar ook als het er 1000 zijn speelt toeval nog altijd een grote rol: denk aan de 2 peilingen hierboven beschreven, waarbij verschillen van enkele procenten heel goed mogelijk zijn.

Slimme statistici hebben formules opgesteld om de toevalligheidsfactor bij steekproeven te becijferen. Ze doen dat door te zeggen: ‘Als we van 1000 van de 4 miljoen Vlaamse kiezers de politieke voorkeur kennen, dan zijn we voor 95 procent zeker dat het echte percentage N-VA stemmers gelegen is tussen de waarde die we berekend hebben, plus of min de foutenmarge.’

De exacte formule bespaar ik u hier (voor de die hards), maar de 28,8 procent die de N-VA bij de peiling van Dedicated haalde en de headlines op de Vlaamse websites bepaalde, doet er eigenlijk weinig toe. Waar het om gaat is het betrouwbaarheidsinterval waar de score van de N-VA zich met een bepaalde graad van waarschijnlijkheid in bevindt.

Ik rekende het uit en met een zekerheid van 95 % ligt de score van de N-VA op 28,8 ± 2,9 procent, of ergens tussen 25,9 en 31,7 procent. De werkelijke score van de N-VA zou dus wel eens boven de 30 procent kunnen liggen.

poll_13_maart_ok

Het enige wat we zouden kunnen doen om meer betrouwbare resultaten te krijgen is meer mensen ondervragen. Maar zelfs als het aantal ondervraagde mensen zou verhoogd worden, naar bijvoorbeeld 2000 personen, dan nog zou de foutenmarge ± 2 procent bedragen.

Dus?

Een goede evolutie is dat bij berichtgeving over peilingen tegenwoordig meestal de foutenmarge wordt meegegeven. Helaas wordt die enkel lippendienst bewezen, helemaal op het einde of in het begin van het artikel, en wordt er voor de rest van de berichtgeving nul komma nul rekening gehouden met de foutenmarge. Dat is eigenlijk hetzelfde als schrijven ‘We hebben uit onbetrouwbare bron vernomen dat…’ en vervolgens een heel artikel vol analyse van de onbetrouwbare uitspraken te produceren.

Mijn voorstellen om goed over peilingen te berichten:

  • Stel de resultaten grafisch voor, met weergave van de betrouwbaarheidsintervallen, zoals hierboven.
  • Geef geen scores tot achter de komma. Zulke precisie is zinloos.
  • Schrijf niet over kleine verschillen en verschuivingen. Die kunnen waarschijnlijk door het toeval verklaard worden.
  • Als er alleen maar kleine verschuivingen zijn (relatief ten opzichte van de betrouwbaarheidsintervallen), moet je je de vraag stellen of een artikel schrijven wel de moeite waard is. (Maar natuurlijk: er werd wel veel geld voor de peiling betaald. En mensen lezen die stukken toch…)

4 Comments

  1. Istvan Hajnal

    Prima stuk, Maarten. Het legt op een heel bevattelijke manier uit waar het om gaat.

    Ik geloof dat vroeger Dedicated met Le Soir werkte en nu met La Libre. Klaarblijkelijk hebben ze hun website nog niet aangepast 😉
    Bij mij werkte de plotly grafiek alvast niet, maar dat kan aan m’n browser liggen.
    Hoe dan ook, slechts 2 kleine randopmerkingen:
    – Strikt genomen zou je de uitspraak “met een zekerheid van 95 % ligt de score van de N-VA op 28,8 ± 2,9 procent, of ergens tussen 25,9 en 31,7 procent.” moeten formulen als “Als we dezelfde procedure zouden gebruiken op steeds nieuwe steekproeven van dezelfde grootte uit dezelfde populatie, dan zouden we verwachten dat 95% van de intervallen de werkelijke score van de N-VA zou bevatten”. De werkelijke score van de N-VA is immers constant (ook al is ze onbekend) en zit dus ofwel in ofwel uit het door jou berekende interval. Maar bon, ik geef toe dat de alternatieve zin niet echt vlot klinkt. Bovendien hebben heel wat statisici (meer bepaald Bayesianen) er een andere kijk op (Cfr. confidence intervals versus credible intervals, maar dat laat ik aan @_3s_ over 😉

    – Je schrijft ook dat het ” enige wat we zouden kunnen doen om meer betrouwbare resultaten te krijgen is meer mensen ondervragen.”. In de praktijk klopt dat allicht wel, maar ik heb me al dikwijls afgevraagd waarom opinie-peilers geen alternatieven onderzoeken zoals het werken met gestratificeerde steekproeven of het gebruik maken van alternatieve schatters.

    Groeten,
    Istvan

  2. Dries Benoit

    Inderdaad, de uitspraak “met een zekerheid van 95 % ligt de score van de N-VA op 28,8 ± 2,9 procent, of ergens tussen 25,9 en 31,7 procent” kan je eigenlijk niet maken binnen de klassieke (frequentistische) statistiek. Immers, die uitspraak impliceert dat de score van N-VA een toevalsvariabele is (met een bepaalde kans om tussen 2 grenzen te vallen).

    De klassieke statistiek ziet probabiliteit echter als een lange-termijn relatieve frequentie (bvb. kans op kop bij opwerpen muntje is 50% omdat bij herhaling van dit experiment 50% vd experimenten kop als resultaat zullen hebben). Zoals Istvan zegt is voor de klassieke statistiek het werkelijke percentage voor N-VA een onbekende, maar constante waarde die ofwel in ofwel buiten het interval ligt.

    Bayesiaanse statistici gebruiken probabiliteit om hun onzekerheid over bepaalde onbekende parameters uit te drukken (en voor hen is probabiliteit dus in zekere zin subjectief: mijn onzekerheid is de jouwe niet). Binnen die benadering is het dan wel mogelijk om ze stellen ‘er is 95% kans dan x binnen a en b ligt’. Deze ‘intuïtieve’ logica van de Bayesiaanse statistiek is voor mij een groot voordeel.

    Dus: om correct te zijn zou die specifieke uitspraak moeten vervangen door wat Istvan schrijft. Al leest dat helemaal niet vlot en is dit voor statistische leken moeilijk te vatten.

  3. Erwin

    Inderdaad, met titels zoals “Nieuwe peiling: N-VA duikt onder 30 procent” zijn deze krantenartikels zeer voorbarig.

    Om je boodschap helemaal duidelijk te maken, kan je ook de waarschijnlijkheid uitrekenen dat, voor dezelfde populatie, een gelijkaardige steekproef uitkomt op de tegenovergestelde conclusie. Ikzelf bereken een kans van 43% dat dezelfde steekproef zou kunnen uitkomen dat N.V.A. boven de 30% ligt.

    Blijkbaar heerst er bij die kranten de opinie dat als er 60% kans is dat er iets waar is, het dan geen probleem is om het dan als zeker in een titel of besluit te formuleren !

    En voor diegene die dit niet ernstig nemen: Als dit de standaard is waarin men zich houdt, moet ik dan besluiten dat maar 60% van wat ik in de krant lees waarheid is?

    Liggen de ambities echt niet hoger?

  4. Kurt Verstegen

    Zeer mooie post met een zeer mooi voorstel! BI’s erbij zou al veel misverstanden uit de wereld helpen!

    Als ik nog één additioneel pietlulligheidje mag voorstellen: hou bij het opstellen van die betrouwbaarheidsintervallen rekening met multiple comparisons. Als je 7 keer een 95% BI weergeeft ga je eigenlijk 7 keer kans hebben op een type I fout. Hoe groot die kans op een type I fout dan wordt hangt natuurlijk af van eventuele (on)afhankelijkheid tussen de schattingen. Bonferroni is wellicht té conservatief is die context, omdat die onafhankelijkheid veronderstelt. Maar er zijn nog alternatieven natuurlijk. En dan heb je wat mij betreft de perfecte grafiek om in de media te smijten 🙂

Add Comment

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *