Factcheck: praten 4 op 10 Belgen verkrachting goed?

Onthutsende cijfers vandaag in de Vlaamse pers:

De cijfers zijn zo onthutsend dat een nadere blik de moeite waard lijkt. En dat wordt bevestigd.

verkrachting_ds

Grafieken uit De Standaard. Let op de formulering van de vraag bovenaan.

De cijfers zijn afkomstig van de Eurobarometer, het instrument waarmee de Europese Commissie een vinger aan de pols probeert te houden over de houding van Europeanen tegenover onderwerpen als gezondheid, cultuur, informatietechnologie, milieu en defensie. En dus ook tegenover huiselijk geweld.

Een blik op de technische fiche voor het onderzoek in ons land leert dat 1029 Belgen in de periode van 4 tot 13 juni 2016 via een persoonlijk interview werden geënquêteerd door peilingbureau TNS Dimarso. Voor een peilingscore van 40 % bedraagt de foutenmarge + of – 3 procentpunten. Het aandeel Belgen dat seks zonder toestemming in bepaalde omstandigheden ok vindt zou zo tussen 37 en 43 % liggen. Nog steeds een hallucinant cijfer dus.

Dubbelzinnig

Een nadere blik op vraag 10 van het enquêteformulier, die gaat over seks zonder toestemming, brengt echter een groot probleem aan het licht. De vraag luidt letterlijk:

“Sommige mensen vinden dat geslachtsgemeenschap zonder toestemming in bepaalde situaties gerechtvaardigd kan worden. Denkt u dat dit op de onderstaande omstandigheden van toepassing is?”

Na deze vraag volgt een reeks opties als ‘Dronken zijn of drugs gebruiken’, ‘Niet duidelijk nee zeggen of zich niet lichamelijk verzetten’ en ‘Onthullende, uitdagende of sexy kledij dragen’.

Problematisch in deze vraagstelling is het woordje ‘dit’. Slaat dat op ‘Sommige mensen vinden dat’ of op ‘seks hebben zonder toestemming is gerechtvaardigd’? Of is de vraag met andere woorden

1. “Denkt u dat sommige mensen vinden dat onderstaande omstandigheden geslachtsgemeenschap zonder toestemming kan rechtvaardigen?”

of is de vraag

2. “Vindt u dat onderstaande omstandigheden geslachtsgemeenschap zonder toestemming kunnen rechtvaardigen?”

Een wereld van verschil.

Dubbelzinnige vragen zijn bij opiniepeilingen uiteraard uit den boze. Het rapport van de Eurobarometer en alle er op gebaseerde mediaberichtgeving interpreteren de antwoorden op de vraag alsof vraag 2 aan de ondervraagden werd voorgelegd. Zonder twijfel bevonden er zich onder de ondervraagden echter ook mensen die de vraag op de eerste manier geïnterpreteerd hebben dus hebben geantwoord of ze dachten dat andere mensen verkrachting in sommige omstandigheden gerechtvaardigd vinden.

Dat huiselijk geweld een probleem is, bevestigen de antwoorden op vraag 4 uit de enquête: meer dan 7 op 10 Belgen geven aan iemand in hun onmiddellijke omgeving te kennen die slachtoffer is geweest van huiselijk geweld. Maar de conclusie dat 4 op 10 Belgen verkrachting in sommige omstandigheden rechtvaardigen is gewoon fout.

Dit cijfer is ook moeilijk te rijmen met de antwoorden op vraag 3 uit de enquête. 97 procent van de ondervraagde Belgen antwoordt ‘ja’ op de vraag of huiselijk geweld tegen vrouwen niet aanvaardbaar is. En 77 % vindt dat dat altijd wettelijk strafbaar moet zijn.

Boter op het hoofd

Wie moet er nu met de vinger worden gewezen voor deze kwakkel?

In eerste instantie de onderzoekers. Met een slechte, dubbelzinnige vraagstelling hebben ze alle interpretaties van de peilingresultaten rond het goedpraten van verkrachting door de Belg waardeloos gemaakt. Ook voor de andere landen zijn de cijfers onbruikbaar: de dubbelzinnigheid zit ook in de Engelse, Franse en Spaanse vertaling van de vraag (meer talen ben ik helaas niet machtig).

Maar van journalisten mag toch ook verwacht worden dat in het geval van zulke hallucinante cijfers er ook even naar de methodologie van een onderzoek wordt gekeken. Dat ze de exacte formulering van de vraag niet gezien zouden hebben, lijkt sterk. De vraag staat letterlijk boven alle kaarten en grafieken die de statistieken over deze vraag weergeven.

Dit is de originele kaart uit het rapport:

kaart_verkrachting

De vraag wordt door De Morgen als volgt vertaald:

verkrachting_kaartdm

Een mea culpa: toch geen 62 procent van de Brusselaars in het buitenland geboren

’62 % van de Brusselaars niet hier geboren’. Ja, dat is de kop van een artikel van mij vandaag in de krant. En nee, dat getal klopt niet.

Gisteren publiceerde de Internationale Organisatie voor Migratie haar World Migration Report. Daarin vond ik twee interessante elementen: Brussel zou een heel hoog aandeel inwoners geboren in het buitenland tellen. En de opkomende economieën worden stilaan ook bestemmingen van internationale migratie. Ik schreef er een artikel over (krantenversie, aangepaste online versie).

Als verklaring voor het hoge aandeel inwoners geboren in het buitenland in onze hoofdstad geeft het rapport de aanwezigheid de Europese instellingen aan. Die trekken inderdaad heel wat buitenlanders aan. Maar dat Brussel zoveel hoger scoort dan steden in immigratielanden als Toronto, Auckland, Sydney en Los Angeles had toch een alarmbelletje moeten doen rinkelen.

Maar het vertrouwen in het rapport, nog versterkt door de aanwezigheid van een grafiek (het is bewezen dat grafieken het vertrouwen in cijfers verhogen), was te groot en de tijd om dieper in de cijfers te duiken ontbrak (wat eigenlijk nooit een excuus zou mogen zijn).

Wat was er aan de hand?

Het rapport geeft, zoals het hoort, de bronnen van de cijfers over het aandeel in het buitenland geboren inwoners op voor iedere stad. Voor Brussel is de bron Belgium: A Country of Permanent Immigration. Daarin staat vermeld:

‘…; in Brussels, nearly 62 percent is of foreign origin and approximately 31 percent have a foreign nationality. The Brussels-Capital Region is of course extremely diverse not just because of general immigration, but also due to the vast community of European nationals working for the European institutions.’

De auteurs van het World Migration Report interpreteren dus ‘of foreign origin’ als in ‘het buitenland geboren’ (‘foreign-born’), terwijl er zich onder de 62 procent Brusselaars ‘of foreign origin’ ook tweede- en derde-generatie migranten bevinden die wel in België zijn geboren.

Het percentage Brusselaars geboren in het buitenland ligt dus lager dan 62 procent. Hoeveel lager? Volgens de laatste cijfers van het Brusselse instituut voor statistiek BISA hadden er begin 2015 van de 1.175.173 Brusselaars er 398.726 niet de Belgische nationaliteit. Dat is 33,9 procent. Nog altijd veel, maar wel veel minder dan 62 procent.

(Om volledig te zijn: eigenlijk vergelijken we hier appelsienen met appelen en peren. Buitenlanders kunnen namelijk ook in België geboren zijn en Belgen kunnen ook in het buitenland ter wereld zijn gekomen.)

Moraal van het verhaal

Berichtgeven over nieuw verschenen studies en onderzoeken behoort uiteraard tot de taken van de journalist. Maar klakkeloos overnemen van cijfers, zeker als die wat afwijkend zijn, moet vermeden worden.

Grote rapporten hebben de neiging om heel wat cijfermateriaal uit andere studies te verzamelen. Maar bij het overnemen van cijfers kan het wel eens misgaan met de interpretatie van de cijfers. Dat is wat er gebeurde in het World Migration Report: voor het Brusselse cijfer werd een andere definitie gebruikt dan voor de cijfers van andere steden. Dat leidt tot onvergelijkbare cijfers en afwijkende waarden. In dat geval is het zaak terug te grijpen naar de oorspronkelijke bron van de cijfers.

Uiteraard kan een journalist niet voor elk cijfer in een rapport nagaan of het wel correct uit de bron werd overgenomen. Maar in dit geval had ik dat in elk geval wel moeten doen: mijn artikel opent namelijk met het cijfer.

Wat ik leerde is dat grote rapporten soms niet meer zijn dan een Wikipedia-pagina: een goed startpunt, met vaak interessant cijfermateriaal. Maar je kan je er niet op baseren: als je op de cijfers wil verder werken moet je teruggaan naar de oorspronkelijke bron, die hopelijk wel vermeld wordt.

Waarom ik niet van Infogram hou

Infogram is een populaire tool om snel online grafiekjes te maken. Hier leg ik uit waarom je Infogram beter vermijdt op een nieuwsredactie en in elke andere professionele omgeving.

Infogram

De grote plus van Infogram is de eenvoud en snelheid waarmee grafieken kunnen worden gemaakt: kies een template, kies een grafische vorm (staafjes, lijnen, …), pas de data aan en klik ‘Publish’. ‘Charts & Infographics the Easy Way’ beschrijft Infogram zichzelf. Maar deze eenvoud heeft nadelen.

infogram

Slechte default instellingen

Mijn grootste kritiek gaat over de default-instellingen van Infogram. Een paar voorbeelden hiervan:

  • staafjes op een staafgrafiek hebben standaard allemaal een andere kleur
  • staafjes hebben geen datalabels
  • lijngrafieken hebben grids
  • lijngrafieken hebben een y-as die niet van 0 begint
  • lijngrafieken hebben vaak verticale tekst

Deze standaardinstellingen gaan in tegen de regels van goede datavisualisatie. Als gebruiker kan je deze zaken natuurlijk zelf wel corrigeren, maar de overgrote meerderheid van de Infograms die ik tegenkom gebruiken de standaardinstellingen. Nochtans zijn er mensen in en rond Infogram die beter weten, zoals dit artikel aantoont. Vergelijk daar de voorbeeld-Instagram eens met de tips die op het einde worden gegeven.

Hier komt nog bij dat Infogram heel wat grafiektypes aanbiedt die serieuze datavisualisatie onwaardig zijn. Voorbeelden: doughnut chart, multiple axes chart (kritiek), radial bar chart (volgens een post op de Infogram blog enkel te gebruiken ‘omwille van esthetische redenen’), stacked area chart (kritiek).

Overbodige interactiveit

De meerderheid van de Infograms stellen slechts kleine datasets voor: lijnen en staven met maar een handvol datapunten. Maar ook voor deze grafieken gebruikt Infogram standaard interactieve tooltips: je moet over de staven of punten bewegen met de muis om de cijfers achter de grafiek weer te geven.

Voor deze simpele grafieken zou het veel beter zijn om de interactiviteit achterwege te laten, de cijfers als labels op de grafiek te zetten en gewoon een afbeelding te publiceren.

Infogram voorziet wel een deelknop, maar delen via die knop leidt je naar de website van Infogram in plaats van naar je eigen webpagina

Het werken met afbeeldingen in plaats van ingesloten Infograms heeft nog een voordeel: afbeeldingen zijn heel gemakkelijk deelbaar op sociale media. Infogram voorziet wel een deelknop, maar delen via die knop leidt je naar de website van Infogram in plaats van naar je eigen webpagina (probeer maar eens met de Infogram hierboven).

Hanteerbaar

Afbeeldingen zijn ook veel makkelijker om mee te werken. Iedere gebruiker van een CMS weet wel hoe hij een afbeelding bij zijn tekst moet zetten. Terwlijk helemaal niet iedereen weet hoe hij een iframe in html-code moet toevoegen. Sommige CMS’en lusten ook helemaal geen iframes.

Bovendien hebben iframes een belangrijk nadeel: de breedte kan je wel responsive maken, maar voor de hoogte is dat veel moeilijker: je blijft vaak zitten met een lege ruimte op de pagina. Of de iframe krijgt net te weinig ruimte. Infogram biedt wel code aan om responsive grafieken te embedden, maar dat is javascript-code die door heel veel CMS’en zal geweigerd worden.

Afhankelijk van extern platform

Zoals steeds bij het gebruik van “x as a service” ben je bij Infogram afhankelijk van de stabiliteit van het externe platform. Exacte cijfers heb ik niet, maar heel stabiel lijkt mij Infogram niet te zijn:

Bij de research voor dit artikel kreeg ik ook herhaaldelijk een foutmelding op de pagina met voorbeelden, vanwaar op de homepagina van Infogram wordt gelinkt.

Alternatief

Iedere organisatie, nieuwsmedium of andere, die datavisualisatie serieus neemt doet er dus beter aan om voor eenvoudige grafieken Infogram of een van de vele andere graphics-as-a-service ter vermijden.

Het beste alternatief zijn laagdrempelige tools die grafieken als statische afbeeldingen genereren. De Chartbuilder van Quartz is een open source tool die net dat doet en dus een goed alternatief.

Over tijd en lijnen bis

Attente lezer @TVanheukelom had een zeer terechte vraag over een grafiek die we gisteren bij een artikel in de krant en online publiceerden:

Het gaat over deze grafiek:

armoede_MFNgraph_TIJD_06102015_ipadgraph

Als je let op de jaartallen op de x-as, dan zie je inderdaad dat deze grafiek zondigt tegen de regel die ik beschrijf in Over tijd en lijnen: tijdsintervallen moeten correct proportioneel worden weergegeven. Op bovenstaande grafiek is de afstand tussen 1990 en 1999 (9 jaar) dezelfde als deze tussen 1999 en 2012 (13 jaar) en 2012 en 2015 (3 jaar). Daardoor lijkt het alsof er halverwege en sterke daling is en er zich de laatste jaren een afvlakking van de trends voordoet.

Dat is in werkelijkheid niet zo, zoals de onderstaande verbeterde grafiek laat zien:

armoede_correctie2_MFNgraph_TIJD_06102015

Quod erat demonstrandum. Met dank aan @filipysenbaert voor de rechtzetting.

Zijn er nu minder of meer jobs?

Gaat het nu de goede kant uit met de jobs, jobs, jobs in België of niet? De voorpagina’s van De Tijd en de Standaard leken elkaar hierover vorige vrijdag tegen te spreken. Een blik achter de schermen van de statistieken.

voorpaginaDS

Minder Belgen aan het werk, kopte De Standaard. Op de voorpagina van De Tijd: Werkloosheid Vlaanderen daalt snelst sinds 2011.  Enkel afgaande op deze koppen zou je nog kunnen denken dat het verschil tussen de negatieve boodschap van De Standaard en de positieve van De Tijd te wijten is aan de geografische scope van beide artikels: België is niet Vlaanderen en het zou heel goed kunnen dat Vlaanderen goed presteert terwijl het Belgische gemiddelde naar beneden wordt getrokken door de situatie in Brussel en Wallonië. Maar er is veel meer aan de hand.

Want niet alleen spreken de artikels over andere delen van het land, ze slaan ook op andere periodes en op andere indicatoren. De Standaard heeft het over de werkzaamheidsgraad van het tweede semester van 2015 en gebruikt hiervoor Eurostat als bron. De Tijd gebruikt de werkloosheidscijfers van de VDAB voor de maand september.

Metadata

Een goed idee bij het schrijven over cijfers is een kijkje nemen in de metadata, de ‘data over de data’. Goede metadata beschrijft eenduidig wat er precies werd gemeten en hoe. We nemen de metadata van beide indicatoren eens onder de loep.

De werkzaamheidsgraad (‘employment rate’) wordt door Eurostat gedefinieerd als de verhouding tussen het aantal tewerkgestelde personen en de totale bevolking binnen dezelfde leeftijdsgroep. Een tewerkgestelde persoon is iemand die minstens 1 uur per week werkte voor een loon of een andere vergoeding tijdens de ‘referentieweek’. Het begrip referentieweek brengt ons bij de manier waarop deze cijfers werden verzameld: de gegevens van Eurostat worden vergaard aan de hand van wekelijkse enquêtes in elk land van de EU (lees hier meer over de zogenaamde Labour Force Survey).

De gegevens van de VDAB slaan op de zogenaamde niet-werkende werkzoekenden. Omdat bijvoorbeeld een werkzoekende die af en toe interimwerk doet ook tot deze categorie behoort, is het perfect mogelijk dat een werkzoekende volgens de definitie van de VDAB bij een interview voor het verzamelen van de Eurostat-gegevens toch als tewerkgestelde persoon wordt aanzien: als hij tijdens de afgelopen week maar minstens 1 uur heeft gewerkt wordt hij door Eurostat als tewerkgestelde beschouwd.

De cijfers van Eurostat en de VDAB zijn dus onmogelijk te vergelijken. Ze verschillen

  • in geografie: Vlaanderen versus België
  • in manier van verzamelen: enquête versus officieel geregistreerde gegevens
  • in definitie: iemand die voor Eurostat als tewerkgesteld wordt aanzien, kan door de VDAB toch perfect geregistreerd worden als werkzoekende. Bovendien is het cijfer van Eurostat een relatief cijfer en wordt het beïnvloed door de totale bevolking van een land.
  • in de tijdsdimensie: Eurostat geeft een gemiddelde over 3 maanden, de VDAB geeft een keer per maand een momentopname.

Maar gaat het nu beter of slechter?

De cijfers van Eurostat hebben een belangrijk voordeel: ze zijn geharmoniseerd over de landen van de EU. De Belgische cijfers kunnen dus vergeleken worden met deze van de buurlanden en de hele EU. Maar tegen dit voordeel staat een groot nadeel: ze worden verzameld via enquêtes en hebben daardoor een zekere mate van onzekerheid.

Om een idee te geven: in het meest recente rapport over de betrouwbaarheid van de Eurostat-cijfers wordt het aantal tewerkgestelden in België voor 2013 geschat op 4.530.000, plus of min een foutenmarge van 25.000 (dat is +/- 0,5 %). De werkloosheidsgraad werd geschat op 8,4 %, plus of min een foutenmarge van 0,3 procentpunten (dus tussen 8,1 en 8,7 %). Voor trimestriële cijfers ligt de onzekerheid nog hoger dan voor jaarlijkse cijfers, aangezien daarvoor in totaal minder mensen worden ondervraagd.

De Standaard legt in het artikel op de binnenpagina’s de werkzaamheidsgraad ten tijde van het aantreden van de regering Michel (67,1 %) naast dit van het tweede kwartaal van 2015 (66,7 %). Gezien de foutenmarge op deze cijfers kunnen hieruit echter onmogelijk conclusies getrokken worden. Een vergelijking van de absolute cijfers, tot op 1 persoon nauwkeurig (er ‘zouden 18.348 jobs verloren zijn gegaan’ in de 9 maanden van de regering-Michel) is al helemaal nietszeggend. Bovendien is een tewerkgestelde niet hetzelfde als een job: 1 uur per week werken is zoals hierboven beschreven voor Eurostat al voldoende om als tewerkgestelde te boek te worden gesteld.

De cijfers van de VDAB waarover De Tijd bericht zijn wel tot op 1 persoon nauwkeurig: op 30 september 2015 waren er exact 237.736 personen ingeschreven die door de definitie die de VDAB hanteert als niet-werkende werkzoekende wordt beschouwd. Nadeel van de VDAB-cijfers zijn dan weer dat het echte momentopnames zijn en we niet weten hoe groot de variaties op korte termijn zijn. Hoe was bijvoorbeeld de toestand op 15 september of gemiddeld over de hele maand september? En over hoe het aantal werkzoekenden zich verhoudt ten opzichte van het aantal jobs is ook weer een hele discussie op zich.

Meest betrouwbaar

De meest betrouwbare gegevens over de binnenlandse werkgelegenheid worden gepubliceerd door de Nationale Bank, die het gemiddeld aantal werkzame personen per kwartaal geeft op basis van geregistreerde gegevens van de instellingen van de sociale zekerheid. Voor het laatste kwartaal van 2014 tonen deze cijfers een toename van 5.700 banen ten opzichte van het kwartaal voordien. Voor de eerste twee kwartalen van 2015 tonen de cijfers respectievelijk een toename van 8.000  en 9.200 banen. Voor het hele jaar 2014 werd een toename van 17.600 jobs ten opzichte van 2013 opgetekend.

Over tijd en lijnen

Ik wil het even hebben over het weergeven van tijd op tijdlijnen en  grafieken tijdlijnen. Aanleiding is onderstaande ‘infografiek’ van De Redactie.

150813_centralesinc

Goed idee om de nucleaire incidenten in België eens op een rijtje te zetten. Maar bij een tijdlijn hou je toch maar beter de tijd beter in de gaten.

Hiermee bedoel ik dat de visuele afstand tussen de voorgestelde momenten in de tijd evenredig zou moeten zijn met het tijdsinterval tussen de momenten. Kijk bijvoorbeeld naar de laatste 2 incidenten, die dateren van 7 en 13 augustus 2015. In de tijd liggen deze vlak bij elkaar (slechts 6 dagen verschil), visueel liggen ze ongeveer even ver uit elkaar als de eerste twee momenten (5 juli 2005 en 19 juli 2007), die meer dan 2 jaar uit elkaar liggen.

Als de intervallen tussen de incidenten correct worden weergegeven, dan ziet de tijdlijn er zo uit:

nucleairetijdlijn

Heel duidelijk is te zien dat de meest recente incidenten elkaar veel sneller opvolgen dan de incidenten verder in het verleden. Dat is in de originele tijdlijn veel minder duidelijk, zeker als je niet aandachtig de datums zou aflezen en mentaal de intervallen zou berekenen (wat uiteraard veel meer hersenwerk vergt dan waneer de intervallen correct visueel worden voorgesteld).

Tijd op grafieken

Hetzelfde principe geldt (des te meer) voor grafieken: geef steeds de tijdsintervallen juist proportioneel weer. Vergelijk bijvoorbeeld deze twee simpele grafieken, die beide dezelfde gegevens voorstellen.

Fout

Goed

Verticaal of horizontaal?

Visueel loopt tijd van links naar rechts. Dat is een wijd aanvaarde conventie en ook de rede waarom de play-knop van een YouTube-video naar rechts wijst. Maar gezien de beperkte horizontale ruimte op een webpagina en de behoorlijk grote hoeveelheid tekst die in veel tijdlijnen moet weergegeven worden, lijkt een verticale tijdlijn online wel logisch.

Maar moet die dan chronologisch oplopen of aflopen? Beginnen we bovenaan met het meest recente, en dus meest relevante nieuws? Of volgen we de evolutie van de tijd?

De oplossing

Van een medium zonder papieren poot als de VRT zou je mogen verwachten dat ze het digitale helemaal omarmen. Maar Timeline.js is op De Redactie blijkbaar nog niet bekend. Met Timeline.js kan je vanuit een Google Sheet heel simpel een interactieve tijdlijn in elkaar steken, met foto’s en video’s. De lezer kan met knoppen in- en uitzoomen en eenvoudig door de tijd navigeren. De redactie’s van demorgen.be, standaard.be, nieuwsblad.be en ook wij gebruiken Timeline.js regelmatig. Een grote tip dus voor deredactie.be.

Hieronder een tijdlijn die ik met Timeline.js in elkaar stak.

Waar zijn de Heerlijk Heldere cijfers?

Ik ben een grote fan van Heerlijk Helder, het initiatief van Hautekiet voor heldere communicatie. Maar al sinds het begin van de reeks voel ik het knagen. Waar zijn namelijk de Heerlijk Heldere cijfers?

Het waarom van Heerlijk Helder begint met de volgende zin:

“Juristen, verzekeraars, financiële instellingen, overheidsdiensten, ambtenaren en vele anderen verpakken hun boodschap vaak in nodeloos onbegrijpelijke taal.”

Dat lijstje van instellingen die hun boodschap nodeloos ingewikkeld maken, communiceert ook heel wat cijfermateriaal. Denk maar aan facturen, rapporten en onderzoeksresultaten.

De ondertitel van Heerlijk Helder is ‘Hautekiet schenkt klare taal’. Maar communicatie is vandaag zoveel meer dan enkel taal. Een gemiste kans dus om het over het goed communiceren van cijfers te hebben.

Belastingaanslag

Toen het in Hautekiet ging over het aanslagbiljet van de belastingen, moest ik toch even mijn ei kwijt:

tweethautekiet

Wat is het belangrijkste op een belastingaanslag? Dat zijn uiteraard de cijfers: moet u betalen of krijgt u geld terug? En over hoeveel gaat het dan precies? Goed dat de tekst errond nog wat verbeterd wordt door Heerlijk Helder. Maar om het dan niet te hebben over hoe de cijfers gepresenteerd worden, dat is op zijn minst wat raar.

Nu is de voorstelling van de cijfers op de belastingaanslag wel logisch opgebouwd en staat er niks teveel en niks te weinig in de tabelletjes. Hier en daar zou een en ander nog wel wat van plaats veranderd kunnen worden om de leesbaarheid te verhogen.

aanslagbiljet_page_2_NL

Bladzijde twee van een belastingaanslag. © testaankoop.be

Maar op geen enkele manier worden er visuele elementen gebruikt om de cijfers over te brengen. De fiscus zou bijvoorbeeld staafjes kunnen gebruiken om verhoudingen tussen de verschillende inkomstenbronnen of tussen de inkomsten en de belastingen aan te geven.

Ook de hele opbouw en structuur van de inkomsten, de aftrek van bedrijfsvoorheffing, de aftrek van belastingvrije sommen en voordelen en de uiteindelijke berekening van de belastingen en het saldo kan perfect in een visuele voorstelling worden gegoten.

Maar de fiscus zou nog een stapje verder kunnen gaan: de aanslag zou nog heel wat meer ‘service’ kunnen bieden aan de burger. Wat als er op je aanslag een grafiekje zou staan dat voor je hele carrière zou aangeven hoe je inkomen is geëvolueerd? Dat zou dan ook kunnen aangeven uit welke bronnen je dit inkomen jaar na jaar haalde.

bumpchart_inkomen

Een mockup van hoe een evolutie van het inkomen en de inkomensbronnen er zou kunnen uitzien, met de leeftijd op de x-as. De fiscus heeft alle gegevens in zijn bezit om zulke grafieken te kunnen maken.

De aanslag zou ook kunnen aangeven hoeveel belastingen je jaar na jaar betaalde, in procent van je inkomen en in euro. En waarom ook geen cumulatief grafiekje, met de totale som die je tijdens je carrière aan de fiscus betaalde?

Zulke informatie, visueel voorgesteld, zou mensen veel bewuster maken van hun inkomsten en de belastingen die ze betalen en zou volgens mij ook bijdragen aan een hogere financiële geletterdheid onder de bevolking.

Om het niet al te negatief te maken, zou dit bedrag dan kunnen gekoppeld worden aan een concrete uitgave van de overheid, om aan te geven wat er zoal met ieders belastinggeld wordt gedaan. Bijvoorbeeld:

Tijdens uw hele carrière betaalde u al 41.245 euro aan belastingen. Dit komt overeen met

  • het jaarloon van een leerkracht middelbare school OF
  • onderhoud van 12,6 kilometer autosnelweg OF
  • het gemiddeld pensioen van 3,1 65-plussers

De verrijkte jaarrekening

Een gelijkaardige oefening maakte ik eind 2013 ook al eens voor de boekhoudkundige jaarrekening die bedrijven elk jaar moeten neerleggen bij de Nationale Bank. Om de droge cijfers op de jaarrekening beter te kunnen interpreteren, stel ik met onderstaande animatie enkele kleine visuele ingrepen voor.

jaarrekening

Toen ik deze verbeteringen voorstelde aan een zaal vol boekhouders liepen de reacties uiteen: van heel enthousiast, over ‘dat hebben boekhouders niet nodig’ tot ‘dat is wel een officieel overheidsdocument, he’.

Voor mij staat het echter als een paal boven water: enkele kleine datavisualisatie-elementen kunnen een tabel vol cijfers meer context geven en de cijfers beter interpreteerbaar maken.

Overal toepasbaar

Nog een laatste voorbeeldje. Deze keer niet van mijn hand, maar van het Amerikaanse magazine Wired.

Dit is hoe de resultaten van een bloedonderzoek meestal bij de dokter toekomen en hoe de dokter die met de patiënt bespreekt:

Bloedonderzoek

Dit is hoe het er zou kunnen uitzien:

blood_test_redesign_wired

Waarom is deze voorstelling beter? Hier zijn de 4 belangrijkste redenen:

  1. De cijfers worden in hun context geplaatst: voor elke score wordt aangegeven waar de patiënt zich bevindt ten opzichte van scores van andere mensen. Er wordt aangegeven of de gemeten waarden normaal of te hoog of te laag zijn.
  2. Er wordt gefocust op de belangrijke elementen. Normale waarden worden enkel pro forma vermeld. Abnormale waarden krijgen wel hun eigen grafiek, zodat de focus van de patiënt daar op komt te liggen.
  3. Er wordt een indicatie van te ondernemen actie gegeven: oranje betekent ‘in het oog te houden’, rood betekent ‘nu actie ondernemen’
  4. Bovenaan wordt een samenvatting gegeven, die alle resultaten samenbalt.

Heerlijk heldere cijfers

Hopelijk bent u intussen overtuigd dat ook cijfers heerlijk helder moeten worden gecommuniceerd. Hieronder geef ik 5 tips voor heerlijk heldere cijfers.

  1. Stel hoeveelheden grafisch voor. Eenvoudige staafjes kunnen al enorm verhelderend werken. Gebruik lijngrafieken voor cijfers die in de tijd evolueren.
  2. Plaats de cijfers in hun context: zijn de cijfers abnormaal hoog of net gewoon gemiddeld? Zijn de cijfers voor dit jaar hoger of net lager dan vorig jaar? Geef dat visueel weer.
  3. Als er hiërarchie in de cijfers vervat zit (categoriën en subcategorieën), geef dat dan visueel weer. Dit kan met behulp van geschakeerde achtergronden, variatie in lettertypes en verschillen in horizontale en verticale schikking van de cijfers en visuele elementen.
  4. Sluit af met een call to action: wat zijn de volgende stappen, nu de cijfers bekend zijn?
  5. Zet de belangrijkste, meest relevante cijfers bovenaan en geef er een (visuele) samenvatting van de cijfers naast. Begin pas daarna aan de detailcijfers.

Ik duim alvast voor een uitloper van Heerlijk Helder over cijfers, met remakes van door de overheid, bedrijven en andere instellingen gepubliceerde tabellen en grafieken.

Oh ja, de foutenmarge is ± 3,2 %

Nieuwe peiling: N-VA duikt onder 30 procent (standaard.be)

N-VA duikt onder de 30 procent in nieuwe peiling (demorgen.be)

N-VA duikt onder de 30 procent in nieuwe peiling (deredactie.be)

N-VA duikt onder de 30 procent in nieuwe peiling (hln.be)

N-VA duikt onder onder de 30 procent in nieuwe peiling (knack.be)

Gekibbel zet N-VA en CD&V op verlies (mijn eigen tijd.be)

Nee, ik wil het hier niet hebben over het overnemen Belgaberichten, originele koppen of het gebruik van ‘%’ vs. ‘procent’. Ik wil het hier hebben over betrouwbaarheidsintervallen.

RTBF en La Libre Belgique laten het marktonderzoeksbureau Dedicated om de drie maanden een politieke barometer opmaken over de ‘kiesintenties en preoccupaties van de Belgen’, aldus de website van Dedicated (hoewel daar Le Soir wordt vermeld in plaats van La Libre).

In alle gevallen, behalve het artikel op tijd.be, zijn dit de afsluitende zinnen van het artikel:

De peiling werd afgenomen tussen 5 en 9 maart 2015 bij 911 Vlamingen, 907 Brusselaars en 908 Walen. De foutenmarge bedraagt voor elk van de groepen 3,2 procent.

Dat brengt ons meteen bij de kern van het probleem: de N-VA haalt in de peiling 28,8 procent, wat de marge met de magische 30 procent op 1,2 procent legt. Dat is beduidend lager dan de foutenmarge van 3,2 procent.

1000 Vlaamse kiezers

De bedoeling van een peiling is door middel van een enquête uitspraken te kunnen doen over de volledige populatie, in dit geval alle kiesgerechtigde Vlamingen. Maar telkens alle Vlamingen boven de 18 jaar bevragen is natuurlijk onmogelijk. Dat kost te veel tijd en en geld en daarom doen we dat enkel bij de verkiezingen zelf.

Onderzoeksbureau’s als Dedicated voeren daarom steekproeven uit onder de bevolking: uit een lijst met telefoonnummers kiezen ze een duizendtal personen uit die worden gecontacteerd om hun kiesintenties bekend te maken. Om betrouwbaar te kunnen zijn moet iedere Belg (of Vlaming) in principe evenveel kans maken om zo opgebeld te worden. We gaan er in dit artikel van uit dat dit voor deze steekproef het geval is (hoewel het heel goed mogelijk is dat dit niet zo is).

In tegenstelling tot echte verkiezingen, brengen steekproeven een mate van onzekerheid met zich mee. Een voorbeeld.

Stel dat het echte percentage N-VA-stemmers in Vlaanderen op dit moment exact 30 procent zou zijn. Dit valt moeilijk heel nauwkeurig te meten, maar we doen een poging om dit door middel van een politieke peiling te onderzoeken. We bellen willekeurig 1000 Vlamingen op en vragen op wie zij zouden stemmen als er vandaag verkiezingen zouden zijn. Van die 1000 zijn er 288 die aangeven N-VA te zullen stemmen. In deze peiling scoort de N-VA dus 28,8 procent.

Maar helaas gaan door een defecte harde schijf bij het peilingbureau de resultaten van deze peiling verloren. Er zit niets anders op dan opnieuw willekeurig 1000 mensen op te bellen. En tot de stomme verbazing van de peilers zijn er bij deze 1000 kiezers plots 321 N-VA stemmers. N-VA haalt plots 32,1 procent van de stemmen, wel 3,3 procent meer dan bij de eerste peiling, een paar uur daarvoor!

Het persbericht dat de peilers op basis van de eerste peiling hadden opgemaakt (‘N-VA duikt onder de 30 procent’) wordt samen met de kapotte harde schijf naar de prullenmand verwezen en vervangen door het bericht ‘N-VA ruim boven de 30 procent’.

Terwijl het echte percentage N-VA kiezers dus 30 % bedraagt, kunnen twee peilingen, met hetzelfde aantal ondervraagden, afwijkende resultaten opleveren. Hoe komt dat? Wel, toeval bij het selecteren van de ondervraagden creëert onzekerheid in de resultaten.

10 Vlaamse kiezers

Stel nu dat we in plaats van 1000 kiezers op te bellen, er maar 10 zouden opbellen. Door stom toeval zou het wel eens kunnen dat er zich onder deze 10 mensen geen enkele N-VA-stemmer bevindt (dus N-VA: 0 procent). Het zou ook wel eens kunnen dat het er 8 zijn (80 procent) of misschien zijn het toevallig alle 10 N-VA-stemmers (100 procent).

Hoe minder mensen we opbellen, hoe kleiner de steekproef is en hoe groter toeval het eindresultaat bepaalt. Als we 100 mensen zouden opbellen, zou het toch heel toevallig moeten zijn moesten dit allemaal N-VA-stemmers zijn. En als het er 1000 zijn, mogen we er van uitgaan dat de resultaten van de peiling in de buurt van de werkelijkheid liggen.

Betrouwbaarheidsintervallen

Maar ook als het er 1000 zijn speelt toeval nog altijd een grote rol: denk aan de 2 peilingen hierboven beschreven, waarbij verschillen van enkele procenten heel goed mogelijk zijn.

Slimme statistici hebben formules opgesteld om de toevalligheidsfactor bij steekproeven te becijferen. Ze doen dat door te zeggen: ‘Als we van 1000 van de 4 miljoen Vlaamse kiezers de politieke voorkeur kennen, dan zijn we voor 95 procent zeker dat het echte percentage N-VA stemmers gelegen is tussen de waarde die we berekend hebben, plus of min de foutenmarge.’

De exacte formule bespaar ik u hier (voor de die hards), maar de 28,8 procent die de N-VA bij de peiling van Dedicated haalde en de headlines op de Vlaamse websites bepaalde, doet er eigenlijk weinig toe. Waar het om gaat is het betrouwbaarheidsinterval waar de score van de N-VA zich met een bepaalde graad van waarschijnlijkheid in bevindt.

Ik rekende het uit en met een zekerheid van 95 % ligt de score van de N-VA op 28,8 ± 2,9 procent, of ergens tussen 25,9 en 31,7 procent. De werkelijke score van de N-VA zou dus wel eens boven de 30 procent kunnen liggen.

poll_13_maart_ok

Het enige wat we zouden kunnen doen om meer betrouwbare resultaten te krijgen is meer mensen ondervragen. Maar zelfs als het aantal ondervraagde mensen zou verhoogd worden, naar bijvoorbeeld 2000 personen, dan nog zou de foutenmarge ± 2 procent bedragen.

Dus?

Een goede evolutie is dat bij berichtgeving over peilingen tegenwoordig meestal de foutenmarge wordt meegegeven. Helaas wordt die enkel lippendienst bewezen, helemaal op het einde of in het begin van het artikel, en wordt er voor de rest van de berichtgeving nul komma nul rekening gehouden met de foutenmarge. Dat is eigenlijk hetzelfde als schrijven ‘We hebben uit onbetrouwbare bron vernomen dat…’ en vervolgens een heel artikel vol analyse van de onbetrouwbare uitspraken te produceren.

Mijn voorstellen om goed over peilingen te berichten:

  • Stel de resultaten grafisch voor, met weergave van de betrouwbaarheidsintervallen, zoals hierboven.
  • Geef geen scores tot achter de komma. Zulke precisie is zinloos.
  • Schrijf niet over kleine verschillen en verschuivingen. Die kunnen waarschijnlijk door het toeval verklaard worden.
  • Als er alleen maar kleine verschuivingen zijn (relatief ten opzichte van de betrouwbaarheidsintervallen), moet je je de vraag stellen of een artikel schrijven wel de moeite waard is. (Maar natuurlijk: er werd wel veel geld voor de peiling betaald. En mensen lezen die stukken toch…)

De ironie is eigenlijk nog pijnlijker

Informatie zelf is vrij, maar de vorm waarin die informatie wordt gepresenteerd, mag niet worden gekopieerd, benadrukt Tom Naegels.

Zo begint de meest recente aflevering van de uitstekende rubriek Ombudsman van Tom Naegels in De Standaard. Naegels schrijft over een geval van plagiaat, waarbij een stuk over UFO’s in DS Avond letterlijke vertaling van stukken van een artikel op digg.com bleek te bevatten. De titel van het Ombudsman-stuk, ‘Pijnlijke ironie’, slaat op de hele discussie rond de plagiaatzaak van Luc Tuymans, die woedde op het moment dat DS Avond zelf dus plagiaat pleegde.

Maar eigenlijk is alles nog ironischer dan Naegels zelf beseft. De auteur van het plagiaatstuk is de grafisch redacteur van DS Avond en het feit dat hij geen schrijvend journalist, wordt nog net niet als excuus aangehaald voor het plagiaat:

Wat opvalt, is dat de redacteurs in kwestie zich er meestal niet van bewust waren dat het niet mocht. In alle gevallen ging het om journalisten die nieuw zijn op de redactie, erg jong en pas in het vak, of eigenlijk geen schrijvend journalist – zoals in dit geval.

Alsof een grafisch redacteur geen besef zou moeten hebben over wat plagiaat is. En wat alles nog ironischer maakt: de Tuymans-zaak draait niet om tekstplagiaat, maar om plagiaat met beelden.

Van mensen in de grafische sector mag je toch ook verwachten dat ze gevoelig zijn voor plagiaat? Op onze redactie drukken de fotoredacteurs iedereen regelmatig op het hart dat foto’s zoeken met Google Image Search om ze als illustratie te gebruiken bij artikels absoluut not done is. En op de redactie waar ik vroeger werkte werd het vergeten van een copyrightvermelding bij een foto, ook al was die aangekocht, als een serieuze fout aanzien.

Voorbij de bronvermelding

Dat er in de grafische poten van de Vlaamse nieuwsmedia (en zonder twijfel ook daarbuiten) soms geflirt wordt met de grenzen van plagiaat, daar schreef ik eerder al over. Vooral bij datavisualisaties wordt wel eens ‘vergeten’ de bron te vermelden, zowel van de de data als van de inspiratie voor het maken van de grafiek.

Naegels schrijft dat een bronvermelding alleen vaak niet genoeg is:

Een bronvermelding dient om de herkomst van informatie aan te wijzen – het is een erkenning van het feit dat een ander medium eerst was met het nieuws, of eventueel van het feit dat er nog enige onzekerheid over bestaat. ‘Er zou een bom ontploft zijn in het centrum van Bagdad. Dat schrijft The Guardian.’ Dat is een bronvermelding. Maar dan nog hoort het nog steeds niet om dat hele artikel van The Guardian vervolgens letterlijk over te schrijven. Daarvoor is er voorafgaandelijk toestemming nodig. En dan staat er een copyright-vermelding bij, geen bronvermelding.

Naegels besluit met een raadgeving:

Graag geef ik ook nog het heldere, eenvoudige principe mee, voor iedereen die er zijn voordeel mee wil doen. Informatie zelf is vrij. Maar de vorm waarin die informatie wordt gepresenteerd – in het geval van tekst de formuleringen, de grapjes die erbij worden gemaakt, de beeldspraak, de titel, de sfeerbeschrijvingen, alles wat die tekst uniek maakt – mag niet worden gekopieerd. Zelfs een klein stukje is al plagiaat.

Vervang in dit citaat ‘tekst’ door ‘grafiek’, ‘formuleringen’ door ‘vormen’, ‘beeldspraak’ door ‘lettertypes’ en ‘sfeerbeschrijvingen’ door ‘kleurenpaletten’ en je krijgt een goede omschrijving voor plagiaat in datavisualisatie.

Voorbeelden

Bekijk met deze omschrijving in het hoofd dan even deze voorbeelden. Allemaal verschenen ze zonder bronvermelding, laat staan een copyrightvermelding:

Uit, o ironie,  De Standaard (11 december 2013):

lonen_destandaard

Dit was het origineel:

Salary-forecast-2014-haygroup

Deze, uit het laatste nieuws van 6 januari 2015, is nog straffer:

hln_6jan2014

Zonder enige verwijzing naar het origineel, dat in oktober al verscheen op de Washington Post (vandaag trouwens prachtig geactualiseerd). De auteur van het artikel (niet van de illustratie), nadat ik hem hierop had gewezen: ‘Grafiek is idd. wat té gelijkend.

wapo_syria

En tot slot nog eentje van Knack, van februari 2014:

knack_copy

Het origineel, van Buzzfeed, waarnaar Knack het naliet in welke zin dan ook te verwijzen:

buzzfeed_org

Deze gevallen staan zeker niet alleen, een oplettend lezer ontdekt gemakkelijk nog andere voorbeelden.

Structure, copy, data

Zelf heb ik ook wel eens afgevraagd of sommige van mijn visualisaties niet te fel leunen op andermans werk. Leren van voorbeelden en geïnspireerd worden is een wezenlijk onderdeel in een creatieve en jonge discipline als datavisualisatie. Maar uiteraard gelden ook daar regels.

Ik legde daarom een van mijn grafieken eens voor aan een expert uit het veld,  Alberto Cairo  van de Universiteit van Miami. Dit was zijn antwoord:

tweet_cairo

Conclusie

Wanneer ook maar een klein beetje van de vorm waarin data is gevisualiseerd (vormen, kleuren, lettertypes, structurering, annotaties, …) gekopieerd wordt, is er sprake van plagiaat. Als je je enkel laat inspireren en andere structuren, data en tekst gebruikt is er geen sprake van plagiaat.

Maar een (inspiratie)bronvermelding kan natuurlijk nooit kwaad.

De datavisualisatie checklist

Enkele maanden geleden publiceerden Stephanie Evergreen en Ann Emery, twee Amerikaanse specialisten in datavisualisatie en het communiceren van cijfers, de Data Visualization Checklist. Met de checklist bieden ze iedereen die betere grafieken wil maken een leidraad, in 25 puntjes.

Ik vroeg hen of ik een Nederlandse vertaling mocht maken, en ze waren zo vriendelijk om mij hiervoor de toelating te geven. Bij deze presenteer ik hier de Nederlandse versie.

datavizchecklist_screenshot

Het moet gezegd: de checklist is gericht op zakelijke grafieken, die helder en kernachtig een boodschap moeten overbrengen. Maar iedereen die wel eens grafieken maakt, in welke vorm en met welk doel dan ook, kan uit de 25 punten van de checklist zonder twijfel iets leren over hoe je best kan communiceren met cijfers en grafieken.

Handig is ook dat je met de checklist een grafiek kan scoren en zo dus kan nagaan welke versie van een zelfde grafiek de beste is.

Aarzel dus niet: download de checklist en evalueren maar, die grafieken!