Factcheck: praten 4 op 10 Belgen verkrachting goed?

Onthutsende cijfers vandaag in de Vlaamse pers:

De cijfers zijn zo onthutsend dat een nadere blik de moeite waard lijkt. En dat wordt bevestigd.

verkrachting_ds

Grafieken uit De Standaard. Let op de formulering van de vraag bovenaan.

De cijfers zijn afkomstig van de Eurobarometer, het instrument waarmee de Europese Commissie een vinger aan de pols probeert te houden over de houding van Europeanen tegenover onderwerpen als gezondheid, cultuur, informatietechnologie, milieu en defensie. En dus ook tegenover huiselijk geweld.

Een blik op de technische fiche voor het onderzoek in ons land leert dat 1029 Belgen in de periode van 4 tot 13 juni 2016 via een persoonlijk interview werden geënquêteerd door peilingbureau TNS Dimarso. Voor een peilingscore van 40 % bedraagt de foutenmarge + of – 3 procentpunten. Het aandeel Belgen dat seks zonder toestemming in bepaalde omstandigheden ok vindt zou zo tussen 37 en 43 % liggen. Nog steeds een hallucinant cijfer dus.

Dubbelzinnig

Een nadere blik op vraag 10 van het enquêteformulier, die gaat over seks zonder toestemming, brengt echter een groot probleem aan het licht. De vraag luidt letterlijk:

“Sommige mensen vinden dat geslachtsgemeenschap zonder toestemming in bepaalde situaties gerechtvaardigd kan worden. Denkt u dat dit op de onderstaande omstandigheden van toepassing is?”

Na deze vraag volgt een reeks opties als ‘Dronken zijn of drugs gebruiken’, ‘Niet duidelijk nee zeggen of zich niet lichamelijk verzetten’ en ‘Onthullende, uitdagende of sexy kledij dragen’.

Problematisch in deze vraagstelling is het woordje ‘dit’. Slaat dat op ‘Sommige mensen vinden dat’ of op ‘seks hebben zonder toestemming is gerechtvaardigd’? Of is de vraag met andere woorden

1. “Denkt u dat sommige mensen vinden dat onderstaande omstandigheden geslachtsgemeenschap zonder toestemming kan rechtvaardigen?”

of is de vraag

2. “Vindt u dat onderstaande omstandigheden geslachtsgemeenschap zonder toestemming kunnen rechtvaardigen?”

Een wereld van verschil.

Dubbelzinnige vragen zijn bij opiniepeilingen uiteraard uit den boze. Het rapport van de Eurobarometer en alle er op gebaseerde mediaberichtgeving interpreteren de antwoorden op de vraag alsof vraag 2 aan de ondervraagden werd voorgelegd. Zonder twijfel bevonden er zich onder de ondervraagden echter ook mensen die de vraag op de eerste manier geïnterpreteerd hebben dus hebben geantwoord of ze dachten dat andere mensen verkrachting in sommige omstandigheden gerechtvaardigd vinden.

Dat huiselijk geweld een probleem is, bevestigen de antwoorden op vraag 4 uit de enquête: meer dan 7 op 10 Belgen geven aan iemand in hun onmiddellijke omgeving te kennen die slachtoffer is geweest van huiselijk geweld. Maar de conclusie dat 4 op 10 Belgen verkrachting in sommige omstandigheden rechtvaardigen is gewoon fout.

Dit cijfer is ook moeilijk te rijmen met de antwoorden op vraag 3 uit de enquête. 97 procent van de ondervraagde Belgen antwoordt ‘ja’ op de vraag of huiselijk geweld tegen vrouwen niet aanvaardbaar is. En 77 % vindt dat dat altijd wettelijk strafbaar moet zijn.

Boter op het hoofd

Wie moet er nu met de vinger worden gewezen voor deze kwakkel?

In eerste instantie de onderzoekers. Met een slechte, dubbelzinnige vraagstelling hebben ze alle interpretaties van de peilingresultaten rond het goedpraten van verkrachting door de Belg waardeloos gemaakt. Ook voor de andere landen zijn de cijfers onbruikbaar: de dubbelzinnigheid zit ook in de Engelse, Franse en Spaanse vertaling van de vraag (meer talen ben ik helaas niet machtig).

Maar van journalisten mag toch ook verwacht worden dat in het geval van zulke hallucinante cijfers er ook even naar de methodologie van een onderzoek wordt gekeken. Dat ze de exacte formulering van de vraag niet gezien zouden hebben, lijkt sterk. De vraag staat letterlijk boven alle kaarten en grafieken die de statistieken over deze vraag weergeven.

Dit is de originele kaart uit het rapport:

kaart_verkrachting

De vraag wordt door De Morgen als volgt vertaald:

verkrachting_kaartdm

Een mea culpa: toch geen 62 procent van de Brusselaars in het buitenland geboren

’62 % van de Brusselaars niet hier geboren’. Ja, dat is de kop van een artikel van mij vandaag in de krant. En nee, dat getal klopt niet.

Gisteren publiceerde de Internationale Organisatie voor Migratie haar World Migration Report. Daarin vond ik twee interessante elementen: Brussel zou een heel hoog aandeel inwoners geboren in het buitenland tellen. En de opkomende economieën worden stilaan ook bestemmingen van internationale migratie. Ik schreef er een artikel over (krantenversie, aangepaste online versie).

Als verklaring voor het hoge aandeel inwoners geboren in het buitenland in onze hoofdstad geeft het rapport de aanwezigheid de Europese instellingen aan. Die trekken inderdaad heel wat buitenlanders aan. Maar dat Brussel zoveel hoger scoort dan steden in immigratielanden als Toronto, Auckland, Sydney en Los Angeles had toch een alarmbelletje moeten doen rinkelen.

Maar het vertrouwen in het rapport, nog versterkt door de aanwezigheid van een grafiek (het is bewezen dat grafieken het vertrouwen in cijfers verhogen), was te groot en de tijd om dieper in de cijfers te duiken ontbrak (wat eigenlijk nooit een excuus zou mogen zijn).

Wat was er aan de hand?

Het rapport geeft, zoals het hoort, de bronnen van de cijfers over het aandeel in het buitenland geboren inwoners op voor iedere stad. Voor Brussel is de bron Belgium: A Country of Permanent Immigration. Daarin staat vermeld:

‘…; in Brussels, nearly 62 percent is of foreign origin and approximately 31 percent have a foreign nationality. The Brussels-Capital Region is of course extremely diverse not just because of general immigration, but also due to the vast community of European nationals working for the European institutions.’

De auteurs van het World Migration Report interpreteren dus ‘of foreign origin’ als in ‘het buitenland geboren’ (‘foreign-born’), terwijl er zich onder de 62 procent Brusselaars ‘of foreign origin’ ook tweede- en derde-generatie migranten bevinden die wel in België zijn geboren.

Het percentage Brusselaars geboren in het buitenland ligt dus lager dan 62 procent. Hoeveel lager? Volgens de laatste cijfers van het Brusselse instituut voor statistiek BISA hadden er begin 2015 van de 1.175.173 Brusselaars er 398.726 niet de Belgische nationaliteit. Dat is 33,9 procent. Nog altijd veel, maar wel veel minder dan 62 procent.

(Om volledig te zijn: eigenlijk vergelijken we hier appelsienen met appelen en peren. Buitenlanders kunnen namelijk ook in België geboren zijn en Belgen kunnen ook in het buitenland ter wereld zijn gekomen.)

Moraal van het verhaal

Berichtgeven over nieuw verschenen studies en onderzoeken behoort uiteraard tot de taken van de journalist. Maar klakkeloos overnemen van cijfers, zeker als die wat afwijkend zijn, moet vermeden worden.

Grote rapporten hebben de neiging om heel wat cijfermateriaal uit andere studies te verzamelen. Maar bij het overnemen van cijfers kan het wel eens misgaan met de interpretatie van de cijfers. Dat is wat er gebeurde in het World Migration Report: voor het Brusselse cijfer werd een andere definitie gebruikt dan voor de cijfers van andere steden. Dat leidt tot onvergelijkbare cijfers en afwijkende waarden. In dat geval is het zaak terug te grijpen naar de oorspronkelijke bron van de cijfers.

Uiteraard kan een journalist niet voor elk cijfer in een rapport nagaan of het wel correct uit de bron werd overgenomen. Maar in dit geval had ik dat in elk geval wel moeten doen: mijn artikel opent namelijk met het cijfer.

Wat ik leerde is dat grote rapporten soms niet meer zijn dan een Wikipedia-pagina: een goed startpunt, met vaak interessant cijfermateriaal. Maar je kan je er niet op baseren: als je op de cijfers wil verder werken moet je teruggaan naar de oorspronkelijke bron, die hopelijk wel vermeld wordt.

Waarom ik niet van Infogram hou

Infogram is een populaire tool om snel online grafiekjes te maken. Hier leg ik uit waarom je Infogram beter vermijdt op een nieuwsredactie en in elke andere professionele omgeving.

Infogram

De grote plus van Infogram is de eenvoud en snelheid waarmee grafieken kunnen worden gemaakt: kies een template, kies een grafische vorm (staafjes, lijnen, …), pas de data aan en klik ‘Publish’. ‘Charts & Infographics the Easy Way’ beschrijft Infogram zichzelf. Maar deze eenvoud heeft nadelen.

infogram

Slechte default instellingen

Mijn grootste kritiek gaat over de default-instellingen van Infogram. Een paar voorbeelden hiervan:

  • staafjes op een staafgrafiek hebben standaard allemaal een andere kleur
  • staafjes hebben geen datalabels
  • lijngrafieken hebben grids
  • lijngrafieken hebben een y-as die niet van 0 begint
  • lijngrafieken hebben vaak verticale tekst

Deze standaardinstellingen gaan in tegen de regels van goede datavisualisatie. Als gebruiker kan je deze zaken natuurlijk zelf wel corrigeren, maar de overgrote meerderheid van de Infograms die ik tegenkom gebruiken de standaardinstellingen. Nochtans zijn er mensen in en rond Infogram die beter weten, zoals dit artikel aantoont. Vergelijk daar de voorbeeld-Instagram eens met de tips die op het einde worden gegeven.

Hier komt nog bij dat Infogram heel wat grafiektypes aanbiedt die serieuze datavisualisatie onwaardig zijn. Voorbeelden: doughnut chart, multiple axes chart (kritiek), radial bar chart (volgens een post op de Infogram blog enkel te gebruiken ‘omwille van esthetische redenen’), stacked area chart (kritiek).

Overbodige interactiveit

De meerderheid van de Infograms stellen slechts kleine datasets voor: lijnen en staven met maar een handvol datapunten. Maar ook voor deze grafieken gebruikt Infogram standaard interactieve tooltips: je moet over de staven of punten bewegen met de muis om de cijfers achter de grafiek weer te geven.

Voor deze simpele grafieken zou het veel beter zijn om de interactiviteit achterwege te laten, de cijfers als labels op de grafiek te zetten en gewoon een afbeelding te publiceren.

Infogram voorziet wel een deelknop, maar delen via die knop leidt je naar de website van Infogram in plaats van naar je eigen webpagina

Het werken met afbeeldingen in plaats van ingesloten Infograms heeft nog een voordeel: afbeeldingen zijn heel gemakkelijk deelbaar op sociale media. Infogram voorziet wel een deelknop, maar delen via die knop leidt je naar de website van Infogram in plaats van naar je eigen webpagina (probeer maar eens met de Infogram hierboven).

Hanteerbaar

Afbeeldingen zijn ook veel makkelijker om mee te werken. Iedere gebruiker van een CMS weet wel hoe hij een afbeelding bij zijn tekst moet zetten. Terwlijk helemaal niet iedereen weet hoe hij een iframe in html-code moet toevoegen. Sommige CMS’en lusten ook helemaal geen iframes.

Bovendien hebben iframes een belangrijk nadeel: de breedte kan je wel responsive maken, maar voor de hoogte is dat veel moeilijker: je blijft vaak zitten met een lege ruimte op de pagina. Of de iframe krijgt net te weinig ruimte. Infogram biedt wel code aan om responsive grafieken te embedden, maar dat is javascript-code die door heel veel CMS’en zal geweigerd worden.

Afhankelijk van extern platform

Zoals steeds bij het gebruik van “x as a service” ben je bij Infogram afhankelijk van de stabiliteit van het externe platform. Exacte cijfers heb ik niet, maar heel stabiel lijkt mij Infogram niet te zijn:

Bij de research voor dit artikel kreeg ik ook herhaaldelijk een foutmelding op de pagina met voorbeelden, vanwaar op de homepagina van Infogram wordt gelinkt.

Alternatief

Iedere organisatie, nieuwsmedium of andere, die datavisualisatie serieus neemt doet er dus beter aan om voor eenvoudige grafieken Infogram of een van de vele andere graphics-as-a-service ter vermijden.

Het beste alternatief zijn laagdrempelige tools die grafieken als statische afbeeldingen genereren. De Chartbuilder van Quartz is een open source tool die net dat doet en dus een goed alternatief.

Over tijd en lijnen bis

Attente lezer @TVanheukelom had een zeer terechte vraag over een grafiek die we gisteren bij een artikel in de krant en online publiceerden:

Het gaat over deze grafiek:

armoede_MFNgraph_TIJD_06102015_ipadgraph

Als je let op de jaartallen op de x-as, dan zie je inderdaad dat deze grafiek zondigt tegen de regel die ik beschrijf in Over tijd en lijnen: tijdsintervallen moeten correct proportioneel worden weergegeven. Op bovenstaande grafiek is de afstand tussen 1990 en 1999 (9 jaar) dezelfde als deze tussen 1999 en 2012 (13 jaar) en 2012 en 2015 (3 jaar). Daardoor lijkt het alsof er halverwege en sterke daling is en er zich de laatste jaren een afvlakking van de trends voordoet.

Dat is in werkelijkheid niet zo, zoals de onderstaande verbeterde grafiek laat zien:

armoede_correctie2_MFNgraph_TIJD_06102015

Quod erat demonstrandum. Met dank aan @filipysenbaert voor de rechtzetting.

Zijn er nu minder of meer jobs?

Gaat het nu de goede kant uit met de jobs, jobs, jobs in België of niet? De voorpagina’s van De Tijd en de Standaard leken elkaar hierover vorige vrijdag tegen te spreken. Een blik achter de schermen van de statistieken.

voorpaginaDS

Minder Belgen aan het werk, kopte De Standaard. Op de voorpagina van De Tijd: Werkloosheid Vlaanderen daalt snelst sinds 2011.  Enkel afgaande op deze koppen zou je nog kunnen denken dat het verschil tussen de negatieve boodschap van De Standaard en de positieve van De Tijd te wijten is aan de geografische scope van beide artikels: België is niet Vlaanderen en het zou heel goed kunnen dat Vlaanderen goed presteert terwijl het Belgische gemiddelde naar beneden wordt getrokken door de situatie in Brussel en Wallonië. Maar er is veel meer aan de hand.

Want niet alleen spreken de artikels over andere delen van het land, ze slaan ook op andere periodes en op andere indicatoren. De Standaard heeft het over de werkzaamheidsgraad van het tweede semester van 2015 en gebruikt hiervoor Eurostat als bron. De Tijd gebruikt de werkloosheidscijfers van de VDAB voor de maand september.

Metadata

Een goed idee bij het schrijven over cijfers is een kijkje nemen in de metadata, de ‘data over de data’. Goede metadata beschrijft eenduidig wat er precies werd gemeten en hoe. We nemen de metadata van beide indicatoren eens onder de loep.

De werkzaamheidsgraad (‘employment rate’) wordt door Eurostat gedefinieerd als de verhouding tussen het aantal tewerkgestelde personen en de totale bevolking binnen dezelfde leeftijdsgroep. Een tewerkgestelde persoon is iemand die minstens 1 uur per week werkte voor een loon of een andere vergoeding tijdens de ‘referentieweek’. Het begrip referentieweek brengt ons bij de manier waarop deze cijfers werden verzameld: de gegevens van Eurostat worden vergaard aan de hand van wekelijkse enquêtes in elk land van de EU (lees hier meer over de zogenaamde Labour Force Survey).

De gegevens van de VDAB slaan op de zogenaamde niet-werkende werkzoekenden. Omdat bijvoorbeeld een werkzoekende die af en toe interimwerk doet ook tot deze categorie behoort, is het perfect mogelijk dat een werkzoekende volgens de definitie van de VDAB bij een interview voor het verzamelen van de Eurostat-gegevens toch als tewerkgestelde persoon wordt aanzien: als hij tijdens de afgelopen week maar minstens 1 uur heeft gewerkt wordt hij door Eurostat als tewerkgestelde beschouwd.

De cijfers van Eurostat en de VDAB zijn dus onmogelijk te vergelijken. Ze verschillen

  • in geografie: Vlaanderen versus België
  • in manier van verzamelen: enquête versus officieel geregistreerde gegevens
  • in definitie: iemand die voor Eurostat als tewerkgesteld wordt aanzien, kan door de VDAB toch perfect geregistreerd worden als werkzoekende. Bovendien is het cijfer van Eurostat een relatief cijfer en wordt het beïnvloed door de totale bevolking van een land.
  • in de tijdsdimensie: Eurostat geeft een gemiddelde over 3 maanden, de VDAB geeft een keer per maand een momentopname.

Maar gaat het nu beter of slechter?

De cijfers van Eurostat hebben een belangrijk voordeel: ze zijn geharmoniseerd over de landen van de EU. De Belgische cijfers kunnen dus vergeleken worden met deze van de buurlanden en de hele EU. Maar tegen dit voordeel staat een groot nadeel: ze worden verzameld via enquêtes en hebben daardoor een zekere mate van onzekerheid.

Om een idee te geven: in het meest recente rapport over de betrouwbaarheid van de Eurostat-cijfers wordt het aantal tewerkgestelden in België voor 2013 geschat op 4.530.000, plus of min een foutenmarge van 25.000 (dat is +/- 0,5 %). De werkloosheidsgraad werd geschat op 8,4 %, plus of min een foutenmarge van 0,3 procentpunten (dus tussen 8,1 en 8,7 %). Voor trimestriële cijfers ligt de onzekerheid nog hoger dan voor jaarlijkse cijfers, aangezien daarvoor in totaal minder mensen worden ondervraagd.

De Standaard legt in het artikel op de binnenpagina’s de werkzaamheidsgraad ten tijde van het aantreden van de regering Michel (67,1 %) naast dit van het tweede kwartaal van 2015 (66,7 %). Gezien de foutenmarge op deze cijfers kunnen hieruit echter onmogelijk conclusies getrokken worden. Een vergelijking van de absolute cijfers, tot op 1 persoon nauwkeurig (er ‘zouden 18.348 jobs verloren zijn gegaan’ in de 9 maanden van de regering-Michel) is al helemaal nietszeggend. Bovendien is een tewerkgestelde niet hetzelfde als een job: 1 uur per week werken is zoals hierboven beschreven voor Eurostat al voldoende om als tewerkgestelde te boek te worden gesteld.

De cijfers van de VDAB waarover De Tijd bericht zijn wel tot op 1 persoon nauwkeurig: op 30 september 2015 waren er exact 237.736 personen ingeschreven die door de definitie die de VDAB hanteert als niet-werkende werkzoekende wordt beschouwd. Nadeel van de VDAB-cijfers zijn dan weer dat het echte momentopnames zijn en we niet weten hoe groot de variaties op korte termijn zijn. Hoe was bijvoorbeeld de toestand op 15 september of gemiddeld over de hele maand september? En over hoe het aantal werkzoekenden zich verhoudt ten opzichte van het aantal jobs is ook weer een hele discussie op zich.

Meest betrouwbaar

De meest betrouwbare gegevens over de binnenlandse werkgelegenheid worden gepubliceerd door de Nationale Bank, die het gemiddeld aantal werkzame personen per kwartaal geeft op basis van geregistreerde gegevens van de instellingen van de sociale zekerheid. Voor het laatste kwartaal van 2014 tonen deze cijfers een toename van 5.700 banen ten opzichte van het kwartaal voordien. Voor de eerste twee kwartalen van 2015 tonen de cijfers respectievelijk een toename van 8.000  en 9.200 banen. Voor het hele jaar 2014 werd een toename van 17.600 jobs ten opzichte van 2013 opgetekend.

Over tijd en lijnen

Ik wil het even hebben over het weergeven van tijd op tijdlijnen en  grafieken tijdlijnen. Aanleiding is onderstaande ‘infografiek’ van De Redactie.

150813_centralesinc

Goed idee om de nucleaire incidenten in België eens op een rijtje te zetten. Maar bij een tijdlijn hou je toch maar beter de tijd beter in de gaten.

Hiermee bedoel ik dat de visuele afstand tussen de voorgestelde momenten in de tijd evenredig zou moeten zijn met het tijdsinterval tussen de momenten. Kijk bijvoorbeeld naar de laatste 2 incidenten, die dateren van 7 en 13 augustus 2015. In de tijd liggen deze vlak bij elkaar (slechts 6 dagen verschil), visueel liggen ze ongeveer even ver uit elkaar als de eerste twee momenten (5 juli 2005 en 19 juli 2007), die meer dan 2 jaar uit elkaar liggen.

Als de intervallen tussen de incidenten correct worden weergegeven, dan ziet de tijdlijn er zo uit:

nucleairetijdlijn

Heel duidelijk is te zien dat de meest recente incidenten elkaar veel sneller opvolgen dan de incidenten verder in het verleden. Dat is in de originele tijdlijn veel minder duidelijk, zeker als je niet aandachtig de datums zou aflezen en mentaal de intervallen zou berekenen (wat uiteraard veel meer hersenwerk vergt dan waneer de intervallen correct visueel worden voorgesteld).

Tijd op grafieken

Hetzelfde principe geldt (des te meer) voor grafieken: geef steeds de tijdsintervallen juist proportioneel weer. Vergelijk bijvoorbeeld deze twee simpele grafieken, die beide dezelfde gegevens voorstellen.

Fout

Goed

Verticaal of horizontaal?

Visueel loopt tijd van links naar rechts. Dat is een wijd aanvaarde conventie en ook de rede waarom de play-knop van een YouTube-video naar rechts wijst. Maar gezien de beperkte horizontale ruimte op een webpagina en de behoorlijk grote hoeveelheid tekst die in veel tijdlijnen moet weergegeven worden, lijkt een verticale tijdlijn online wel logisch.

Maar moet die dan chronologisch oplopen of aflopen? Beginnen we bovenaan met het meest recente, en dus meest relevante nieuws? Of volgen we de evolutie van de tijd?

De oplossing

Van een medium zonder papieren poot als de VRT zou je mogen verwachten dat ze het digitale helemaal omarmen. Maar Timeline.js is op De Redactie blijkbaar nog niet bekend. Met Timeline.js kan je vanuit een Google Sheet heel simpel een interactieve tijdlijn in elkaar steken, met foto’s en video’s. De lezer kan met knoppen in- en uitzoomen en eenvoudig door de tijd navigeren. De redactie’s van demorgen.be, standaard.be, nieuwsblad.be en ook wij gebruiken Timeline.js regelmatig. Een grote tip dus voor deredactie.be.

Hieronder een tijdlijn die ik met Timeline.js in elkaar stak.

De puntjes op de i: 7 redenen waarom u puntgrafieken zou moeten maken

Punten gaan verder waar lijnen en staven stoppen. Dat klink misschien raar, zeker voor wie nog uit de les wiskunde onthield dat een lijn een oneindige verzameling punten is. Toch kunnen punten zoveel meer dan lijnen in visualisatie. Enkele voordelen en -beelden van puntengrafieken.

1. Punten zijn efficiënt

Al in 1984 bewezen onderzoekers Cleveland en Mcgill dat op een gezamenlijke as gerangschikte punten een van de meest efficiënte manieren zijn om hoeveelheden en verhoudingen te communiceren.

cleveland_mcgill_cairo

Visualisatievormen die vergelijken van cijfers makkelijk maken (bovenaan) en vormen die minder efficiënt zijn (onderaan) © Alberto Cairo, naar Cleveland en McGill.

Het mag dan ook verbazen dat puntgrafieken zo zeldzaam zijn. Dit in tegenstelling tot staafgrafieken en de op het vlak van efficiëntie minderwaardige taartdiagrammen.

2. Punten geven meer detail

Beyond Bar and Line Graphs, Time for a New Data Presentation Paradigm, een recent en heel interessant artikel in PLOS Biology, pleit voor het vervangen van staafgrafieken die gemiddeldes en standaardafwijkingen weergeven door ‘1-dimensionele puntenwolken’ in wetenschappelijke studies. De voornaamste rede hiervoor is dat puntenwolken ook spreiding, outliers en dichtheid van datapunten weergeven.

journal.pbio.1002128.g001

Een zeer terecht punt. Vergelijk bijvoorbeeld de volgende 2 grafieken over werkloosheid in Europese landen, allebei gemaakt door Eurostat.

Unemployment_rates,_seasonally_adjusted,_February_2015

 

dotplot_eurostat

 

De tweede grafiek geeft ook de spreiding van de werkloosheid binnen elk land weer, waardoor een veel completer verhaal kan verteld worden.

3.  Twee verbonden punten zijn… een helling

Het artikel in PLOS geeft ook aan hoe je door het verbinden van twee 1-dimensionale puntenwolken ook groepen en trends in data kan ontdekken.

journal.pbio.1002128.g002

Zo krijg je hellingsgrafieken, een van mijn favoriete visualisatievormen. Maar van twee 1-dimensionele puntenwolken kan je natuurlijk ook gewoon een traditionele 2-dimensionele puntenwolk maken.

4. Punten besparen plaats

Punten nemen veel minder inkt op papier en pixels op een scherm in dan andere visualisatievormen. Je kan er dus visualisaties met een veel hogere datadensiteit (of een hogere data to ink ratio) mee bereiken. Vergelijk maar eens.

Origineel:

belastingen_belastingsdruk_oeso_landen_oecd_MFNgraph_TIJD_15042015_F_ipadgraph

En mijn schets van een puntenvariant:

België blijft loonlastenkampioen

5. Punten geven ruimte voor meer dimensies

Het is vrij eenvoudig om met kleuren en afmetingen grafieken zelfs nog datadenser te maken. Punten kunnen ingekleurd worden (kwalitatief of kwantitatief) en de grootte kan gecodeerd worden. Voeg dan nog tijd/animatie toe, en je krijgt de beroemde Rosling-grafieken (aka bubble charts).

Je grafiek moet natuurlijk wel leesbaar blijven. Niet altijd vanzelfsprekend, met 5 dimensies (x, y, kleur, grootte, tijd) op 1 grafiek.

6. Punten helpen verhalen vertellen

Met een doordacht gebruik van kleuren kan in een grote wolk van punten de meest interessante punten uitgelicht worden om een verhaal te vertellen.

7. Punten kunnen duizenden aan

Door slim gebruik te maken van transparantie kunnen punten gebruikt worden voor het weergeven van letterlijk duizenden datapunten. Er zijn uiteraard limieten, maar zoals Tim Brock hier uitlegt zijn er wat truukjes om het optimum aan transparantie te vinden.

Er gebeurt ook onderzoek naar hoe de optimale transparantie van punten in een wolk automatisch gevonden kan worden. Hier hebben we wellicht het laatste dus nog niet van gezien.

De familie der puntgrafieken

Omwille van de hierboven opgesomde voordelen, pleit ik voor meer gebruik van punten voor het visualiseren van cijfers. Wanneer gebruik je dan welke puntgrafiek?

  • Voor het vergelijken van een enkele dimensie voor verschillende categoriën: 1-dimensionele scatterplot.
  • Voor het detecteren van scheve en bimodale distributies van 2 variabelen: verbonden 1-dimensionele scatterplot (of hellingsgrafiek).
  • Voor het detecteren van verbanden tussen 2 variabelen: 2-dimensionele scatterplot.
  • Voor het weergeven van 4-dimensionele data (3 cijfervariabelen, 1 categorische): bellengrafiek. Kan ook voor 3-dimensionele data (3 cijfervariabelen of 2 cijfervariabelen en 1 categorische).
  • Voor het weergeven van 4-dimensionele data + tijd: geanimeerde bellengrafiek (aka Rosling-grafiek).

Waar zijn de Heerlijk Heldere cijfers?

Ik ben een grote fan van Heerlijk Helder, het initiatief van Hautekiet voor heldere communicatie. Maar al sinds het begin van de reeks voel ik het knagen. Waar zijn namelijk de Heerlijk Heldere cijfers?

Het waarom van Heerlijk Helder begint met de volgende zin:

“Juristen, verzekeraars, financiële instellingen, overheidsdiensten, ambtenaren en vele anderen verpakken hun boodschap vaak in nodeloos onbegrijpelijke taal.”

Dat lijstje van instellingen die hun boodschap nodeloos ingewikkeld maken, communiceert ook heel wat cijfermateriaal. Denk maar aan facturen, rapporten en onderzoeksresultaten.

De ondertitel van Heerlijk Helder is ‘Hautekiet schenkt klare taal’. Maar communicatie is vandaag zoveel meer dan enkel taal. Een gemiste kans dus om het over het goed communiceren van cijfers te hebben.

Belastingaanslag

Toen het in Hautekiet ging over het aanslagbiljet van de belastingen, moest ik toch even mijn ei kwijt:

tweethautekiet

Wat is het belangrijkste op een belastingaanslag? Dat zijn uiteraard de cijfers: moet u betalen of krijgt u geld terug? En over hoeveel gaat het dan precies? Goed dat de tekst errond nog wat verbeterd wordt door Heerlijk Helder. Maar om het dan niet te hebben over hoe de cijfers gepresenteerd worden, dat is op zijn minst wat raar.

Nu is de voorstelling van de cijfers op de belastingaanslag wel logisch opgebouwd en staat er niks teveel en niks te weinig in de tabelletjes. Hier en daar zou een en ander nog wel wat van plaats veranderd kunnen worden om de leesbaarheid te verhogen.

aanslagbiljet_page_2_NL

Bladzijde twee van een belastingaanslag. © testaankoop.be

Maar op geen enkele manier worden er visuele elementen gebruikt om de cijfers over te brengen. De fiscus zou bijvoorbeeld staafjes kunnen gebruiken om verhoudingen tussen de verschillende inkomstenbronnen of tussen de inkomsten en de belastingen aan te geven.

Ook de hele opbouw en structuur van de inkomsten, de aftrek van bedrijfsvoorheffing, de aftrek van belastingvrije sommen en voordelen en de uiteindelijke berekening van de belastingen en het saldo kan perfect in een visuele voorstelling worden gegoten.

Maar de fiscus zou nog een stapje verder kunnen gaan: de aanslag zou nog heel wat meer ‘service’ kunnen bieden aan de burger. Wat als er op je aanslag een grafiekje zou staan dat voor je hele carrière zou aangeven hoe je inkomen is geëvolueerd? Dat zou dan ook kunnen aangeven uit welke bronnen je dit inkomen jaar na jaar haalde.

bumpchart_inkomen

Een mockup van hoe een evolutie van het inkomen en de inkomensbronnen er zou kunnen uitzien, met de leeftijd op de x-as. De fiscus heeft alle gegevens in zijn bezit om zulke grafieken te kunnen maken.

De aanslag zou ook kunnen aangeven hoeveel belastingen je jaar na jaar betaalde, in procent van je inkomen en in euro. En waarom ook geen cumulatief grafiekje, met de totale som die je tijdens je carrière aan de fiscus betaalde?

Zulke informatie, visueel voorgesteld, zou mensen veel bewuster maken van hun inkomsten en de belastingen die ze betalen en zou volgens mij ook bijdragen aan een hogere financiële geletterdheid onder de bevolking.

Om het niet al te negatief te maken, zou dit bedrag dan kunnen gekoppeld worden aan een concrete uitgave van de overheid, om aan te geven wat er zoal met ieders belastinggeld wordt gedaan. Bijvoorbeeld:

Tijdens uw hele carrière betaalde u al 41.245 euro aan belastingen. Dit komt overeen met

  • het jaarloon van een leerkracht middelbare school OF
  • onderhoud van 12,6 kilometer autosnelweg OF
  • het gemiddeld pensioen van 3,1 65-plussers

De verrijkte jaarrekening

Een gelijkaardige oefening maakte ik eind 2013 ook al eens voor de boekhoudkundige jaarrekening die bedrijven elk jaar moeten neerleggen bij de Nationale Bank. Om de droge cijfers op de jaarrekening beter te kunnen interpreteren, stel ik met onderstaande animatie enkele kleine visuele ingrepen voor.

jaarrekening

Toen ik deze verbeteringen voorstelde aan een zaal vol boekhouders liepen de reacties uiteen: van heel enthousiast, over ‘dat hebben boekhouders niet nodig’ tot ‘dat is wel een officieel overheidsdocument, he’.

Voor mij staat het echter als een paal boven water: enkele kleine datavisualisatie-elementen kunnen een tabel vol cijfers meer context geven en de cijfers beter interpreteerbaar maken.

Overal toepasbaar

Nog een laatste voorbeeldje. Deze keer niet van mijn hand, maar van het Amerikaanse magazine Wired.

Dit is hoe de resultaten van een bloedonderzoek meestal bij de dokter toekomen en hoe de dokter die met de patiënt bespreekt:

Bloedonderzoek

Dit is hoe het er zou kunnen uitzien:

blood_test_redesign_wired

Waarom is deze voorstelling beter? Hier zijn de 4 belangrijkste redenen:

  1. De cijfers worden in hun context geplaatst: voor elke score wordt aangegeven waar de patiënt zich bevindt ten opzichte van scores van andere mensen. Er wordt aangegeven of de gemeten waarden normaal of te hoog of te laag zijn.
  2. Er wordt gefocust op de belangrijke elementen. Normale waarden worden enkel pro forma vermeld. Abnormale waarden krijgen wel hun eigen grafiek, zodat de focus van de patiënt daar op komt te liggen.
  3. Er wordt een indicatie van te ondernemen actie gegeven: oranje betekent ‘in het oog te houden’, rood betekent ‘nu actie ondernemen’
  4. Bovenaan wordt een samenvatting gegeven, die alle resultaten samenbalt.

Heerlijk heldere cijfers

Hopelijk bent u intussen overtuigd dat ook cijfers heerlijk helder moeten worden gecommuniceerd. Hieronder geef ik 5 tips voor heerlijk heldere cijfers.

  1. Stel hoeveelheden grafisch voor. Eenvoudige staafjes kunnen al enorm verhelderend werken. Gebruik lijngrafieken voor cijfers die in de tijd evolueren.
  2. Plaats de cijfers in hun context: zijn de cijfers abnormaal hoog of net gewoon gemiddeld? Zijn de cijfers voor dit jaar hoger of net lager dan vorig jaar? Geef dat visueel weer.
  3. Als er hiërarchie in de cijfers vervat zit (categoriën en subcategorieën), geef dat dan visueel weer. Dit kan met behulp van geschakeerde achtergronden, variatie in lettertypes en verschillen in horizontale en verticale schikking van de cijfers en visuele elementen.
  4. Sluit af met een call to action: wat zijn de volgende stappen, nu de cijfers bekend zijn?
  5. Zet de belangrijkste, meest relevante cijfers bovenaan en geef er een (visuele) samenvatting van de cijfers naast. Begin pas daarna aan de detailcijfers.

Ik duim alvast voor een uitloper van Heerlijk Helder over cijfers, met remakes van door de overheid, bedrijven en andere instellingen gepubliceerde tabellen en grafieken.

De favoriete visualisaties van Alberto Cairo

Op 10 maart had ik de eer en het genoegen een uurtje met Alberto Cairo te spreken. Hij had heel wat interessants te zeggen over journalistiek en over visuele geletterdheid en leren programmeren. Maar ik kon de kans niet laten liggen hem te vragen naar zijn favoriete visualisaties.

Wat is je favoriete visualisatie ooit?

Alberto Cairo: ‘De cholera-kaart van John Snow, dat is mijn all time favorite. Omdat die zoveel zegt over waar visualisatie over gaat. En niet alleen over visualisatie: ook over epidemiologie en over datajournalistiek. Het mooiste aan de kaart is de achtergrond, wat er voorafging aan het visualiseren zelf.

1098px-Snow-cholera-map-1

‘Snow werkte als een datajournalist. Hij keek niet alleen naar de trend, hij focuste niet alleen op ‘hoe dichter bij de bron, hoe hoger het aantal slachtoffers’. Hij keek ook naar de outliers. Er waren een paar personen die verderop woonden van de besmette bron, maar toch ook slachtoffer werden van de ziekte. Snow ging naar die huizen om te onderzoeken hoe dat kwam. Dat is het werk van een datajournalist.

‘Snow’s kaart is zeker mijn favoriete historische visualisatie, door het verhaal dat er achter zit.’

En wat zou de visualisatie met de meeste impact ooit zijn?

‘Daar schrijf ik ook over in mijn nieuwe boek. Het tweede hoofdstuk begint met Enrico, Enrico Bertini. Hij schreef een blogpost over ‘Weten we wel of visualisaties echt werken?’. En mijn antwoord is: ja. Elke keer dat iemand iets bruikbaars ontdekt in een grafiek, dan is dat een succes. In mijn boek geef ik daar verschillende voorbeelden van.

‘Het eerste voorbeeld van een grafiek die je denken verandert wanneer je hem bestudeert is net de kaart van John Snow. Maar een moderner voorbeeld is de Hockey stick graph. Ken je die? Het is een grafiek over de globale temperatuur, die de vorm heeft van een hockey stick.

De hockeystick chart.

De hockey stick graph.

‘De grafiek werd gemaakt op het einde van de jaren 90 door een groep klimaatwetenschappers, onder leiding van Michael Mann. De grafiek werd gepubliceerd in het IPCC rapport van 1999.

‘Het is een van de meest succesvolle grafieken uit de geschiedenis, omdat wanneer je de grafiek ziet, je onmogelijk het bewijs kan ontkennen dat er iets aan de hand is op het einde van de 20ste eeuw. Al Gore gebruikte de grafiek ook zijn zijn An Unconvenient Truth.

‘De grafiek ontketende een hele discussie. Mensen uit de olie-industrie en idioten die het bewijs voor klimaatverandering ontkennen werden bang, omdat de grafiek zo overtuigend is, extreem overtuigend zelfs. Die mensen begonnen Mann en zijn team aan te vallen en zijn reputatie te beschadigen.

‘Hij overleefde de aanvallen en schreef er een boek over: The Hockeystick and the Climate Wars. Zijn grafiek is volgens mij de meest succesvolle grafiek in de moderne geschiedenis, want ze kan levens veranderen. Maar er zijn nog veel andere voorbeelden.

‘Een ander voorbeeld is de grafiek over vaccinaties en mazelen in de VS die ik vanmorgen toonde (in zijn presentatie voor de NTTS2015 conferentie, nvdr).

De mazelen-grafiek van e Wall Street Journal.

De mazelen-grafiek van de Wall Street Journal.

‘Wat kun je zeggen als je die grafiek ziet? Je kan niet ontkennen dat vaccinaties nuttig zijn en dat ze werken: kijk maar naar de data. Je kan het gewoon niet ontkennen.

‘Hoe meer mensen visualisaties beginnen maken, hoe meer dergelijke voorbeelden we zullen zien. We zullen ook de hoeveelheid rommel zien toenemen, uiteraard. Zoals Theodore Sturgeon vele jaren terug al zei: ‘90 procent van alles is rommel.’ Als je de hoeveelheid van iets doet toenemen, zal je meer rommel krijgen. Maar je zal ook een grotere 10 procent hebben, de 10 procent van de geweldige dingen, de dingen die iedereen wil.

‘Ik vind het niet erg dat er veel slechte visualisaties zijn, zolang de hoeveelheid goed werk ook toeneemt. En dat is wat we vandaag zien: een toename aan goede visualisaties. In veel gevallen worden die nu gemaakt door mensen die geen professionele journalisten of professionele visualisatie-ontwerpers zijn. Vaak zijn het mensen die wat spelen met Tableau, D3 of iets anders. Dat is een geweldige trend voor de toekomst. Dat moeten we ondersteunen, die mensen en hun werk moeten we prijzen.

‘Laat me hier een voorbeeld van geven. Een paar maanden geleden publiceerde New Republic Magazine, een weekmagazine in de VS, een verhaal over Medicaid. Het verhaal was dat verschillende staten in de VS weigeren om het Medicaid-programma uit te breiden en dat mensen daardoor geld verliezen.

‘De New Republic publiceerde het verhaal en zette er twee choroplethenkaartjes bij, waarop je kan zien hoeveel geld elke staat verliest. De originele versie van de kaart was echt slecht, met heel veel verschillende kleuren.

De eerste versie van de Medicaid-kaart

De eerste versie van de Medicaid-kaart

‘Toen de auteur van het stuk erover tweette, antwoordde ik dat hij best een andere kleurenpalet kon gebruiken. Hij excuseerde zich en zei dat het zijn eerste visualisatie was. Hij was dus een schrijvende journalist die een kaart wou publiceren. Maar er was niemand in de buurt was die hem kon helpen. Zo kwam hij terecht bij Datawrapper. Daar maakte hij zijn eerste visualisatie mee: een kaart.

‘Ik wil meer van dat soort werk zien. Wanneer ik iemand tegenkom die voor het eerst een informatieve visualisatie maakt en die publiceert, dan zal ik die persoon in de bloemetjes zetten. En als de visualisatie niet heel goed is, zal ik hem of haar advies geven over hoe het beter kan. Mensen appreciëren dat. Ze zullen zich uitgenodigd voelen om meer visualisaties te maken. Ik heb daarover geblogd.

‘De journalist van de New Reporter paste zijn aan op basis van mijn opmerkingen en die van een andere cartograaf.

De uiteindelijke versie.

De uiteindelijke versie.

‘Ik wil meer van dergelijke verhalen. Je moet het gewoon proberen en dan zal je zien dat het geen magie is. Het is eigenlijk heel gemakkelijk.’

Alberto Cairo: ‘Maak het visueel en de mensen zullen het begrijpen’

In het eerste deel van mijn gesprek met Alberto Cairo, had de docent Visualisatie van de universiteit van Miami en auteur van The Functional Art het over wat journalistiek precies is en welke rol wetenschap en visualisatie daarin speelt. In dit tweede deel gaat hij in op de rol van visualisatie in de wetenschap en in het onderwijs.

Hoe ziet de toekomst van datavisualisatie er uit?

Alberto Cairo: ‘Daar heb ik geen idee van. Maar waar ik wel in geloof is dat iedereen het kan leren.’

Is interactiviteit misschien de volgende stap in de wereld van visualisatie?

Alberto Cairo: ‘Absoluut. We spelen daar ook op in aan onze universiteit. De enige lessenreeks over visualisatie is mijn cursus. Daarin leren studenten de basisprincipes en leren ze hoe ze die kunnen toepassen in de echte wereld. Ze maken statische visualisaties, met Illustrator, Tableau en een beetje met R. Met Tableau kunnen ze ook interactieve visualisaties maar, maar zoals je weet heeft Tableau zijn beperkingen.

‘Maar ik zag in in dat dat niet volstaat. Daarom hebben we een tweede lessenreeks in het leven geroepen, bovenop mijn cursus. Die hebben we Advanced Data Visualization gedoopt. Studenten die mijn lessen hebben gevolgd, kunnen ook die lessen volgen. En die cursus is helemaal opgebouwd rond D3: een heel semester vol D3.

‘De Advanced-lessen zullen altijd gegeven worden door externen. Ik ga trouwens zelf die lessen volgen. Volgend semester zit ik op de schoolbanken.’

Je bent zelf geen programmeur?

Alberto Cairo: ‘Nee. Ik kan een beetje programmeren in R en ggplot2 en een beetje in D3. Maar als je me zou vragen om een interactieve visualisatie in elkaar te steken… Ik weet wel hoe ik er aan moet beginnen en hoe ik zoiets moet plannen. Ik kan het bedenken, tekenen, een visuele mockup maken in Illustrator. Maar als het tijd wordt om het echt uit te werken, dan stap ik naar een programmeur. Dat was hoe ik bijvoorbeeld hoe ik te werk toen ik in Brazilië werkte. Maar ik ben helemaal geen programmeur.’

Volgende week (op 16 maart, dit gesprek vond plaats op 10 maart nvdr), gaat je nieuwe MOOC Data visualization and infographics with D3.js van start.

Alberto Cairo: ‘Inderdaad, ik geef die samen met Scott Murray. Maar technisch gezien is het geen MOOC, want de cursus is niet open. Mensen moeten ook betalen. De cursus kost 100 dollar, niet echt veel, zeker niet gezien het niveau van de training die je krijgt.

‘Het succes van die cursus was voor mij echt een verrassing. Net als vele journalisten had ik vooroordeel dat mensen niet willen betalen voor content op het internet. Toen we de cursus aan het voorbereiden waren, dachten we tussen 30 en 40 leerlingen te hebben. We zouden er een klein beetje geld uit kunnen halen. 30 is ook een mooi getal om mee te werken, we zouden mooie conversaties kunnen organiseren.

‘Maar twee uur nadat ik ‘Registration is open for the course with myself and Scott’ had getweet, waren er al 100 inschrijvingen. We waren echt onder de indruk. Na een week zaten we aan ons maximum van 200 mensen. Daarom besloten we de grens op te trekken naar 500. Daardoor moesten we wel extra lesgevers aannemen. Scott neemt het deel over D3 voor zijn rekening, maar hij zal 2 of 3 mensen hebben die hem ondersteunen.

‘Ik neem de eerste fase voor mijn rekening. Als er vragen komen als ‘Welke soort grafiek gebruik ik hier best? Moet ik gaan voor een kaart of een grafiek?’, dan beantwoord ik die. Maar we zullen veel vragen krijgen over code. De leerlingen zullen beginnen programmeren en hun code zal niet werken. Die moet dan gedebugd worden en wij moeten daar bij helpen. Daarom besloten we daar meer mensen op te zetten.

‘Maar het was dus een groot succes. Zo groot zelfs dat we denken aan een nieuwe cursus na de zomer. Want die zal ook terug vollopen. Mensen willen leren, wat fantastisch is. En ze willen leren wat wij doen, wat nog beter is.’

Een grote uitdaging voor visualisatie vandaag is dat veel mensen moeite hebben met het goed interpreteren van grafieken. Zal die zogenaamde visuele geletterdheid onder de bevolking toenemen?

Alberto Cairo: ‘Geen idee, maar ik ik gooi er in elk geval mijn volle gewicht voor in de strijd. Ik vind dat gecijferdheid en visuele geletterdheid universele vaardigheden moeten zijn, net als kunnen lezen en schrijven.

‘Mijn nieuwe boek zal hierover een interessant lijstje bevatten. De cartograaf Mark Monmonier beschrijft in  Mapping it out, overigens een uitstekend boek, een lijstje vaardigheden die iedereen zou moeten ontwikkelen:

  • geletterdheid, dus kunnen lezen en schrijven
  • mondelinge vaardigheden, jezelf kunnen uitdrukken met het gesproken woord
  • gecijferdheid, wat niet dadelijk betekent dat je met statistiek overweg moet kunnen, maar wel dat je kwantitatief kan redeneren, kan denken in cijfers
  • en de vierde vaardigheid: graphicacy, de vaardigheid om grafieken goed te kunnen lezen en te maken.

Ik voeg daar nog een vijfde vaardigheid aan toe: computeracy, begrijpen hoe computers werken, wat er aan de grondslag van ligt. De werking van een computer binnenin begrijpen en kunnen programmeren. Je moet uiteraard geen professionele programmeur worden, maar wel jezelf wat leren programmeren. Het maakt eigenlijk niet uit wat je leert.

Zoals formules in Excel?

Alberto Cairo: ‘Ik zou zeggen: wat meer dan dat. Een beetje Processing, bijvoorbeeld, of R, Python of nog iets anders. Elke programmeertaal heeft een andere woordenschat en andere syntax, maar de onderliggende principes zijn altijd hetzelfde: variabelen, arrays, conditionals. Dat kan je toepassen in elke programmeertaal en dat zal je manier van werken helemaal veranderen. Als je begrijpt hoe computers werken, dan verandert je dat, het verandert onze geest.

‘Ik vind dat die 5 vaardigheden aan bod moeten komen op school. Maar op dit moment onderwijzen we ze slecht, vooral gecijferdheid en computeracy.

‘Mijn eigen studenten weten niet wat een computer is. Ze weten hoe ze Facebook moeten gebruiken, hoe ze moeten Twitteren, maar ze weten niet wat een computer is of hoe die werkt.

‘Over graphicacy weten ze ook zo goed als niets: ze kennen iets van staafgrafieken en taartdiagrammen, maar daar blijft het bij. Ze leren niet hoe ze kaarten en grafieken kunnen gebruiken om er hun eigen voordeel mee te doen. Die vaardigheid moet onderwezen worden.

‘Vanmorgen (in zijn presentatie voor de NTTS2015 conferentie, nvdr) vermeldde ik John Tukey, hij is de grondlegger van de exploratory data analysis, een tak binnen de statistiek. Exploratory data analysis is eigenlijk niets meer dan visualisatie voor exploratie.

exploratorydataanalysis

‘En dat is enorm nuttig: het laat je toe je gegevens op een veel leukere manier te onderzoeken. Mensen houden daarvan. Als ik mensen voor de eerste keer met Tableau laat spelen is de reactie meestal: ‘Wow, zo heb ik de data nog nooit bekeken.’ Mensen worden enthousiast. Het is een zaak om de nieuwsgierigheid aan te wakkeren.

‘En als dat gebeurd is, wanneer je die deur op een kier heb gezet, dan is het veel gemakkelijk er om de onderliggende statistiek uit te leggen. Het is veel moeilijker statistiek uit te leggen als je begint met “Dit zijn de beschrijvende statistieken en hier zijn de formules.” Dat vinden mensen saai, niet iedereen is namelijk een nerd. Ik haatte dat ook toen ik op school zat. Het was pas later, toen ik er over las op mijn eentje, dat ik ontdekte hoe fijn statistiek kan zijn. Waarom onderwijzen we het dan niet zo?

‘Ik verzin dit alles niet zomaar. Statistici zeiden dit zelf ook al 40 jaar geleden. Waarom hebben we die omslag nog niet gemaakt? Waarom luisterden we niet naar Tukey toen hij dit zei?

‘Nadat je de data visueel hebt onderzocht, dan kan je verder gaan met analyses en het testen van hypotheses. Mensen zullen dan in de juiste stemming zijn, ze weten namelijk al dat er iets interessants in de data zit. Daarom zullen ze meer gemotiveerd zijn om ook de moeilijkere dingen te leren: variantie-analyse en dergelijke zaken. Dat is inderdaad moeilijk, dat zijn harde formules. Maar de studenten zullen er zin in hebben. Ze hebben dan namelijk begrepen dat ze het kunnen leren.

‘Statistiek en data-analyse worden vaak als magisch ervaren, omdat we het onderwijzen als magie. Formules, formules en meer formules. Maak het visueel, dat trekt de mensen er in en maakt hen enthousiast.

Las je mijn blogpost over de opgang van Explorable Explanations?

Alberto Cairo: ‘Dingen als Explorable Explanations zijn inderdaad de manier om bijvoorbeeld een normale verdeling uit te leggen of om aan te tonen hoe je een p-waarde kan berekenen bijvoorbeeld. Doe dat visueel, en liefst nog interactief, en de mensen zullen het begrijpen. Als je dat allemaal met woorden en formules moet uitleggen, zullen de meeste mensen verdwalen en het niet snappen.

‘Daar ligt nog een heel veld dat nog ontwikkeld moet worden. Er zijn al heel wat mensen mee bezig, maar er is nog heel veel werk in te doen.’

Lees ook Journalist is geen beroep, het eerste deel van dit interview.

Nog te verschijnen: De favoriete visualisaties van Alberto Cairo