Factcheck: praten 4 op 10 Belgen verkrachting goed?

Onthutsende cijfers vandaag in de Vlaamse pers:

De cijfers zijn zo onthutsend dat een nadere blik de moeite waard lijkt. En dat wordt bevestigd.

verkrachting_ds

Grafieken uit De Standaard. Let op de formulering van de vraag bovenaan.

De cijfers zijn afkomstig van de Eurobarometer, het instrument waarmee de Europese Commissie een vinger aan de pols probeert te houden over de houding van Europeanen tegenover onderwerpen als gezondheid, cultuur, informatietechnologie, milieu en defensie. En dus ook tegenover huiselijk geweld.

Een blik op de technische fiche voor het onderzoek in ons land leert dat 1029 Belgen in de periode van 4 tot 13 juni 2016 via een persoonlijk interview werden geënquêteerd door peilingbureau TNS Dimarso. Voor een peilingscore van 40 % bedraagt de foutenmarge + of – 3 procentpunten. Het aandeel Belgen dat seks zonder toestemming in bepaalde omstandigheden ok vindt zou zo tussen 37 en 43 % liggen. Nog steeds een hallucinant cijfer dus.

Dubbelzinnig

Een nadere blik op vraag 10 van het enquêteformulier, die gaat over seks zonder toestemming, brengt echter een groot probleem aan het licht. De vraag luidt letterlijk:

“Sommige mensen vinden dat geslachtsgemeenschap zonder toestemming in bepaalde situaties gerechtvaardigd kan worden. Denkt u dat dit op de onderstaande omstandigheden van toepassing is?”

Na deze vraag volgt een reeks opties als ‘Dronken zijn of drugs gebruiken’, ‘Niet duidelijk nee zeggen of zich niet lichamelijk verzetten’ en ‘Onthullende, uitdagende of sexy kledij dragen’.

Problematisch in deze vraagstelling is het woordje ‘dit’. Slaat dat op ‘Sommige mensen vinden dat’ of op ‘seks hebben zonder toestemming is gerechtvaardigd’? Of is de vraag met andere woorden

1. “Denkt u dat sommige mensen vinden dat onderstaande omstandigheden geslachtsgemeenschap zonder toestemming kan rechtvaardigen?”

of is de vraag

2. “Vindt u dat onderstaande omstandigheden geslachtsgemeenschap zonder toestemming kunnen rechtvaardigen?”

Een wereld van verschil.

Dubbelzinnige vragen zijn bij opiniepeilingen uiteraard uit den boze. Het rapport van de Eurobarometer en alle er op gebaseerde mediaberichtgeving interpreteren de antwoorden op de vraag alsof vraag 2 aan de ondervraagden werd voorgelegd. Zonder twijfel bevonden er zich onder de ondervraagden echter ook mensen die de vraag op de eerste manier geïnterpreteerd hebben dus hebben geantwoord of ze dachten dat andere mensen verkrachting in sommige omstandigheden gerechtvaardigd vinden.

Dat huiselijk geweld een probleem is, bevestigen de antwoorden op vraag 4 uit de enquête: meer dan 7 op 10 Belgen geven aan iemand in hun onmiddellijke omgeving te kennen die slachtoffer is geweest van huiselijk geweld. Maar de conclusie dat 4 op 10 Belgen verkrachting in sommige omstandigheden rechtvaardigen is gewoon fout.

Dit cijfer is ook moeilijk te rijmen met de antwoorden op vraag 3 uit de enquête. 97 procent van de ondervraagde Belgen antwoordt ‘ja’ op de vraag of huiselijk geweld tegen vrouwen niet aanvaardbaar is. En 77 % vindt dat dat altijd wettelijk strafbaar moet zijn.

Boter op het hoofd

Wie moet er nu met de vinger worden gewezen voor deze kwakkel?

In eerste instantie de onderzoekers. Met een slechte, dubbelzinnige vraagstelling hebben ze alle interpretaties van de peilingresultaten rond het goedpraten van verkrachting door de Belg waardeloos gemaakt. Ook voor de andere landen zijn de cijfers onbruikbaar: de dubbelzinnigheid zit ook in de Engelse, Franse en Spaanse vertaling van de vraag (meer talen ben ik helaas niet machtig).

Maar van journalisten mag toch ook verwacht worden dat in het geval van zulke hallucinante cijfers er ook even naar de methodologie van een onderzoek wordt gekeken. Dat ze de exacte formulering van de vraag niet gezien zouden hebben, lijkt sterk. De vraag staat letterlijk boven alle kaarten en grafieken die de statistieken over deze vraag weergeven.

Dit is de originele kaart uit het rapport:

kaart_verkrachting

De vraag wordt door De Morgen als volgt vertaald:

verkrachting_kaartdm

Zijn er nu minder of meer jobs?

Gaat het nu de goede kant uit met de jobs, jobs, jobs in België of niet? De voorpagina’s van De Tijd en de Standaard leken elkaar hierover vorige vrijdag tegen te spreken. Een blik achter de schermen van de statistieken.

voorpaginaDS

Minder Belgen aan het werk, kopte De Standaard. Op de voorpagina van De Tijd: Werkloosheid Vlaanderen daalt snelst sinds 2011.  Enkel afgaande op deze koppen zou je nog kunnen denken dat het verschil tussen de negatieve boodschap van De Standaard en de positieve van De Tijd te wijten is aan de geografische scope van beide artikels: België is niet Vlaanderen en het zou heel goed kunnen dat Vlaanderen goed presteert terwijl het Belgische gemiddelde naar beneden wordt getrokken door de situatie in Brussel en Wallonië. Maar er is veel meer aan de hand.

Want niet alleen spreken de artikels over andere delen van het land, ze slaan ook op andere periodes en op andere indicatoren. De Standaard heeft het over de werkzaamheidsgraad van het tweede semester van 2015 en gebruikt hiervoor Eurostat als bron. De Tijd gebruikt de werkloosheidscijfers van de VDAB voor de maand september.

Metadata

Een goed idee bij het schrijven over cijfers is een kijkje nemen in de metadata, de ‘data over de data’. Goede metadata beschrijft eenduidig wat er precies werd gemeten en hoe. We nemen de metadata van beide indicatoren eens onder de loep.

De werkzaamheidsgraad (‘employment rate’) wordt door Eurostat gedefinieerd als de verhouding tussen het aantal tewerkgestelde personen en de totale bevolking binnen dezelfde leeftijdsgroep. Een tewerkgestelde persoon is iemand die minstens 1 uur per week werkte voor een loon of een andere vergoeding tijdens de ‘referentieweek’. Het begrip referentieweek brengt ons bij de manier waarop deze cijfers werden verzameld: de gegevens van Eurostat worden vergaard aan de hand van wekelijkse enquêtes in elk land van de EU (lees hier meer over de zogenaamde Labour Force Survey).

De gegevens van de VDAB slaan op de zogenaamde niet-werkende werkzoekenden. Omdat bijvoorbeeld een werkzoekende die af en toe interimwerk doet ook tot deze categorie behoort, is het perfect mogelijk dat een werkzoekende volgens de definitie van de VDAB bij een interview voor het verzamelen van de Eurostat-gegevens toch als tewerkgestelde persoon wordt aanzien: als hij tijdens de afgelopen week maar minstens 1 uur heeft gewerkt wordt hij door Eurostat als tewerkgestelde beschouwd.

De cijfers van Eurostat en de VDAB zijn dus onmogelijk te vergelijken. Ze verschillen

  • in geografie: Vlaanderen versus België
  • in manier van verzamelen: enquête versus officieel geregistreerde gegevens
  • in definitie: iemand die voor Eurostat als tewerkgesteld wordt aanzien, kan door de VDAB toch perfect geregistreerd worden als werkzoekende. Bovendien is het cijfer van Eurostat een relatief cijfer en wordt het beïnvloed door de totale bevolking van een land.
  • in de tijdsdimensie: Eurostat geeft een gemiddelde over 3 maanden, de VDAB geeft een keer per maand een momentopname.

Maar gaat het nu beter of slechter?

De cijfers van Eurostat hebben een belangrijk voordeel: ze zijn geharmoniseerd over de landen van de EU. De Belgische cijfers kunnen dus vergeleken worden met deze van de buurlanden en de hele EU. Maar tegen dit voordeel staat een groot nadeel: ze worden verzameld via enquêtes en hebben daardoor een zekere mate van onzekerheid.

Om een idee te geven: in het meest recente rapport over de betrouwbaarheid van de Eurostat-cijfers wordt het aantal tewerkgestelden in België voor 2013 geschat op 4.530.000, plus of min een foutenmarge van 25.000 (dat is +/- 0,5 %). De werkloosheidsgraad werd geschat op 8,4 %, plus of min een foutenmarge van 0,3 procentpunten (dus tussen 8,1 en 8,7 %). Voor trimestriële cijfers ligt de onzekerheid nog hoger dan voor jaarlijkse cijfers, aangezien daarvoor in totaal minder mensen worden ondervraagd.

De Standaard legt in het artikel op de binnenpagina’s de werkzaamheidsgraad ten tijde van het aantreden van de regering Michel (67,1 %) naast dit van het tweede kwartaal van 2015 (66,7 %). Gezien de foutenmarge op deze cijfers kunnen hieruit echter onmogelijk conclusies getrokken worden. Een vergelijking van de absolute cijfers, tot op 1 persoon nauwkeurig (er ‘zouden 18.348 jobs verloren zijn gegaan’ in de 9 maanden van de regering-Michel) is al helemaal nietszeggend. Bovendien is een tewerkgestelde niet hetzelfde als een job: 1 uur per week werken is zoals hierboven beschreven voor Eurostat al voldoende om als tewerkgestelde te boek te worden gesteld.

De cijfers van de VDAB waarover De Tijd bericht zijn wel tot op 1 persoon nauwkeurig: op 30 september 2015 waren er exact 237.736 personen ingeschreven die door de definitie die de VDAB hanteert als niet-werkende werkzoekende wordt beschouwd. Nadeel van de VDAB-cijfers zijn dan weer dat het echte momentopnames zijn en we niet weten hoe groot de variaties op korte termijn zijn. Hoe was bijvoorbeeld de toestand op 15 september of gemiddeld over de hele maand september? En over hoe het aantal werkzoekenden zich verhoudt ten opzichte van het aantal jobs is ook weer een hele discussie op zich.

Meest betrouwbaar

De meest betrouwbare gegevens over de binnenlandse werkgelegenheid worden gepubliceerd door de Nationale Bank, die het gemiddeld aantal werkzame personen per kwartaal geeft op basis van geregistreerde gegevens van de instellingen van de sociale zekerheid. Voor het laatste kwartaal van 2014 tonen deze cijfers een toename van 5.700 banen ten opzichte van het kwartaal voordien. Voor de eerste twee kwartalen van 2015 tonen de cijfers respectievelijk een toename van 8.000  en 9.200 banen. Voor het hele jaar 2014 werd een toename van 17.600 jobs ten opzichte van 2013 opgetekend.

De puntjes op de i: 7 redenen waarom u puntgrafieken zou moeten maken

Punten gaan verder waar lijnen en staven stoppen. Dat klink misschien raar, zeker voor wie nog uit de les wiskunde onthield dat een lijn een oneindige verzameling punten is. Toch kunnen punten zoveel meer dan lijnen in visualisatie. Enkele voordelen en -beelden van puntengrafieken.

1. Punten zijn efficiënt

Al in 1984 bewezen onderzoekers Cleveland en Mcgill dat op een gezamenlijke as gerangschikte punten een van de meest efficiënte manieren zijn om hoeveelheden en verhoudingen te communiceren.

cleveland_mcgill_cairo

Visualisatievormen die vergelijken van cijfers makkelijk maken (bovenaan) en vormen die minder efficiënt zijn (onderaan) © Alberto Cairo, naar Cleveland en McGill.

Het mag dan ook verbazen dat puntgrafieken zo zeldzaam zijn. Dit in tegenstelling tot staafgrafieken en de op het vlak van efficiëntie minderwaardige taartdiagrammen.

2. Punten geven meer detail

Beyond Bar and Line Graphs, Time for a New Data Presentation Paradigm, een recent en heel interessant artikel in PLOS Biology, pleit voor het vervangen van staafgrafieken die gemiddeldes en standaardafwijkingen weergeven door ‘1-dimensionele puntenwolken’ in wetenschappelijke studies. De voornaamste rede hiervoor is dat puntenwolken ook spreiding, outliers en dichtheid van datapunten weergeven.

journal.pbio.1002128.g001

Een zeer terecht punt. Vergelijk bijvoorbeeld de volgende 2 grafieken over werkloosheid in Europese landen, allebei gemaakt door Eurostat.

Unemployment_rates,_seasonally_adjusted,_February_2015

 

dotplot_eurostat

 

De tweede grafiek geeft ook de spreiding van de werkloosheid binnen elk land weer, waardoor een veel completer verhaal kan verteld worden.

3.  Twee verbonden punten zijn… een helling

Het artikel in PLOS geeft ook aan hoe je door het verbinden van twee 1-dimensionale puntenwolken ook groepen en trends in data kan ontdekken.

journal.pbio.1002128.g002

Zo krijg je hellingsgrafieken, een van mijn favoriete visualisatievormen. Maar van twee 1-dimensionele puntenwolken kan je natuurlijk ook gewoon een traditionele 2-dimensionele puntenwolk maken.

4. Punten besparen plaats

Punten nemen veel minder inkt op papier en pixels op een scherm in dan andere visualisatievormen. Je kan er dus visualisaties met een veel hogere datadensiteit (of een hogere data to ink ratio) mee bereiken. Vergelijk maar eens.

Origineel:

belastingen_belastingsdruk_oeso_landen_oecd_MFNgraph_TIJD_15042015_F_ipadgraph

En mijn schets van een puntenvariant:

België blijft loonlastenkampioen

5. Punten geven ruimte voor meer dimensies

Het is vrij eenvoudig om met kleuren en afmetingen grafieken zelfs nog datadenser te maken. Punten kunnen ingekleurd worden (kwalitatief of kwantitatief) en de grootte kan gecodeerd worden. Voeg dan nog tijd/animatie toe, en je krijgt de beroemde Rosling-grafieken (aka bubble charts).

Je grafiek moet natuurlijk wel leesbaar blijven. Niet altijd vanzelfsprekend, met 5 dimensies (x, y, kleur, grootte, tijd) op 1 grafiek.

6. Punten helpen verhalen vertellen

Met een doordacht gebruik van kleuren kan in een grote wolk van punten de meest interessante punten uitgelicht worden om een verhaal te vertellen.

7. Punten kunnen duizenden aan

Door slim gebruik te maken van transparantie kunnen punten gebruikt worden voor het weergeven van letterlijk duizenden datapunten. Er zijn uiteraard limieten, maar zoals Tim Brock hier uitlegt zijn er wat truukjes om het optimum aan transparantie te vinden.

Er gebeurt ook onderzoek naar hoe de optimale transparantie van punten in een wolk automatisch gevonden kan worden. Hier hebben we wellicht het laatste dus nog niet van gezien.

De familie der puntgrafieken

Omwille van de hierboven opgesomde voordelen, pleit ik voor meer gebruik van punten voor het visualiseren van cijfers. Wanneer gebruik je dan welke puntgrafiek?

  • Voor het vergelijken van een enkele dimensie voor verschillende categoriën: 1-dimensionele scatterplot.
  • Voor het detecteren van scheve en bimodale distributies van 2 variabelen: verbonden 1-dimensionele scatterplot (of hellingsgrafiek).
  • Voor het detecteren van verbanden tussen 2 variabelen: 2-dimensionele scatterplot.
  • Voor het weergeven van 4-dimensionele data (3 cijfervariabelen, 1 categorische): bellengrafiek. Kan ook voor 3-dimensionele data (3 cijfervariabelen of 2 cijfervariabelen en 1 categorische).
  • Voor het weergeven van 4-dimensionele data + tijd: geanimeerde bellengrafiek (aka Rosling-grafiek).

De favoriete visualisaties van Alberto Cairo

Op 10 maart had ik de eer en het genoegen een uurtje met Alberto Cairo te spreken. Hij had heel wat interessants te zeggen over journalistiek en over visuele geletterdheid en leren programmeren. Maar ik kon de kans niet laten liggen hem te vragen naar zijn favoriete visualisaties.

Wat is je favoriete visualisatie ooit?

Alberto Cairo: ‘De cholera-kaart van John Snow, dat is mijn all time favorite. Omdat die zoveel zegt over waar visualisatie over gaat. En niet alleen over visualisatie: ook over epidemiologie en over datajournalistiek. Het mooiste aan de kaart is de achtergrond, wat er voorafging aan het visualiseren zelf.

1098px-Snow-cholera-map-1

‘Snow werkte als een datajournalist. Hij keek niet alleen naar de trend, hij focuste niet alleen op ‘hoe dichter bij de bron, hoe hoger het aantal slachtoffers’. Hij keek ook naar de outliers. Er waren een paar personen die verderop woonden van de besmette bron, maar toch ook slachtoffer werden van de ziekte. Snow ging naar die huizen om te onderzoeken hoe dat kwam. Dat is het werk van een datajournalist.

‘Snow’s kaart is zeker mijn favoriete historische visualisatie, door het verhaal dat er achter zit.’

En wat zou de visualisatie met de meeste impact ooit zijn?

‘Daar schrijf ik ook over in mijn nieuwe boek. Het tweede hoofdstuk begint met Enrico, Enrico Bertini. Hij schreef een blogpost over ‘Weten we wel of visualisaties echt werken?’. En mijn antwoord is: ja. Elke keer dat iemand iets bruikbaars ontdekt in een grafiek, dan is dat een succes. In mijn boek geef ik daar verschillende voorbeelden van.

‘Het eerste voorbeeld van een grafiek die je denken verandert wanneer je hem bestudeert is net de kaart van John Snow. Maar een moderner voorbeeld is de Hockey stick graph. Ken je die? Het is een grafiek over de globale temperatuur, die de vorm heeft van een hockey stick.

De hockeystick chart.

De hockey stick graph.

‘De grafiek werd gemaakt op het einde van de jaren 90 door een groep klimaatwetenschappers, onder leiding van Michael Mann. De grafiek werd gepubliceerd in het IPCC rapport van 1999.

‘Het is een van de meest succesvolle grafieken uit de geschiedenis, omdat wanneer je de grafiek ziet, je onmogelijk het bewijs kan ontkennen dat er iets aan de hand is op het einde van de 20ste eeuw. Al Gore gebruikte de grafiek ook zijn zijn An Unconvenient Truth.

‘De grafiek ontketende een hele discussie. Mensen uit de olie-industrie en idioten die het bewijs voor klimaatverandering ontkennen werden bang, omdat de grafiek zo overtuigend is, extreem overtuigend zelfs. Die mensen begonnen Mann en zijn team aan te vallen en zijn reputatie te beschadigen.

‘Hij overleefde de aanvallen en schreef er een boek over: The Hockeystick and the Climate Wars. Zijn grafiek is volgens mij de meest succesvolle grafiek in de moderne geschiedenis, want ze kan levens veranderen. Maar er zijn nog veel andere voorbeelden.

‘Een ander voorbeeld is de grafiek over vaccinaties en mazelen in de VS die ik vanmorgen toonde (in zijn presentatie voor de NTTS2015 conferentie, nvdr).

De mazelen-grafiek van e Wall Street Journal.

De mazelen-grafiek van de Wall Street Journal.

‘Wat kun je zeggen als je die grafiek ziet? Je kan niet ontkennen dat vaccinaties nuttig zijn en dat ze werken: kijk maar naar de data. Je kan het gewoon niet ontkennen.

‘Hoe meer mensen visualisaties beginnen maken, hoe meer dergelijke voorbeelden we zullen zien. We zullen ook de hoeveelheid rommel zien toenemen, uiteraard. Zoals Theodore Sturgeon vele jaren terug al zei: ‘90 procent van alles is rommel.’ Als je de hoeveelheid van iets doet toenemen, zal je meer rommel krijgen. Maar je zal ook een grotere 10 procent hebben, de 10 procent van de geweldige dingen, de dingen die iedereen wil.

‘Ik vind het niet erg dat er veel slechte visualisaties zijn, zolang de hoeveelheid goed werk ook toeneemt. En dat is wat we vandaag zien: een toename aan goede visualisaties. In veel gevallen worden die nu gemaakt door mensen die geen professionele journalisten of professionele visualisatie-ontwerpers zijn. Vaak zijn het mensen die wat spelen met Tableau, D3 of iets anders. Dat is een geweldige trend voor de toekomst. Dat moeten we ondersteunen, die mensen en hun werk moeten we prijzen.

‘Laat me hier een voorbeeld van geven. Een paar maanden geleden publiceerde New Republic Magazine, een weekmagazine in de VS, een verhaal over Medicaid. Het verhaal was dat verschillende staten in de VS weigeren om het Medicaid-programma uit te breiden en dat mensen daardoor geld verliezen.

‘De New Republic publiceerde het verhaal en zette er twee choroplethenkaartjes bij, waarop je kan zien hoeveel geld elke staat verliest. De originele versie van de kaart was echt slecht, met heel veel verschillende kleuren.

De eerste versie van de Medicaid-kaart

De eerste versie van de Medicaid-kaart

‘Toen de auteur van het stuk erover tweette, antwoordde ik dat hij best een andere kleurenpalet kon gebruiken. Hij excuseerde zich en zei dat het zijn eerste visualisatie was. Hij was dus een schrijvende journalist die een kaart wou publiceren. Maar er was niemand in de buurt was die hem kon helpen. Zo kwam hij terecht bij Datawrapper. Daar maakte hij zijn eerste visualisatie mee: een kaart.

‘Ik wil meer van dat soort werk zien. Wanneer ik iemand tegenkom die voor het eerst een informatieve visualisatie maakt en die publiceert, dan zal ik die persoon in de bloemetjes zetten. En als de visualisatie niet heel goed is, zal ik hem of haar advies geven over hoe het beter kan. Mensen appreciëren dat. Ze zullen zich uitgenodigd voelen om meer visualisaties te maken. Ik heb daarover geblogd.

‘De journalist van de New Reporter paste zijn aan op basis van mijn opmerkingen en die van een andere cartograaf.

De uiteindelijke versie.

De uiteindelijke versie.

‘Ik wil meer van dergelijke verhalen. Je moet het gewoon proberen en dan zal je zien dat het geen magie is. Het is eigenlijk heel gemakkelijk.’

Alberto Cairo: ‘Maak het visueel en de mensen zullen het begrijpen’

In het eerste deel van mijn gesprek met Alberto Cairo, had de docent Visualisatie van de universiteit van Miami en auteur van The Functional Art het over wat journalistiek precies is en welke rol wetenschap en visualisatie daarin speelt. In dit tweede deel gaat hij in op de rol van visualisatie in de wetenschap en in het onderwijs.

Hoe ziet de toekomst van datavisualisatie er uit?

Alberto Cairo: ‘Daar heb ik geen idee van. Maar waar ik wel in geloof is dat iedereen het kan leren.’

Is interactiviteit misschien de volgende stap in de wereld van visualisatie?

Alberto Cairo: ‘Absoluut. We spelen daar ook op in aan onze universiteit. De enige lessenreeks over visualisatie is mijn cursus. Daarin leren studenten de basisprincipes en leren ze hoe ze die kunnen toepassen in de echte wereld. Ze maken statische visualisaties, met Illustrator, Tableau en een beetje met R. Met Tableau kunnen ze ook interactieve visualisaties maar, maar zoals je weet heeft Tableau zijn beperkingen.

‘Maar ik zag in in dat dat niet volstaat. Daarom hebben we een tweede lessenreeks in het leven geroepen, bovenop mijn cursus. Die hebben we Advanced Data Visualization gedoopt. Studenten die mijn lessen hebben gevolgd, kunnen ook die lessen volgen. En die cursus is helemaal opgebouwd rond D3: een heel semester vol D3.

‘De Advanced-lessen zullen altijd gegeven worden door externen. Ik ga trouwens zelf die lessen volgen. Volgend semester zit ik op de schoolbanken.’

Je bent zelf geen programmeur?

Alberto Cairo: ‘Nee. Ik kan een beetje programmeren in R en ggplot2 en een beetje in D3. Maar als je me zou vragen om een interactieve visualisatie in elkaar te steken… Ik weet wel hoe ik er aan moet beginnen en hoe ik zoiets moet plannen. Ik kan het bedenken, tekenen, een visuele mockup maken in Illustrator. Maar als het tijd wordt om het echt uit te werken, dan stap ik naar een programmeur. Dat was hoe ik bijvoorbeeld hoe ik te werk toen ik in Brazilië werkte. Maar ik ben helemaal geen programmeur.’

Volgende week (op 16 maart, dit gesprek vond plaats op 10 maart nvdr), gaat je nieuwe MOOC Data visualization and infographics with D3.js van start.

Alberto Cairo: ‘Inderdaad, ik geef die samen met Scott Murray. Maar technisch gezien is het geen MOOC, want de cursus is niet open. Mensen moeten ook betalen. De cursus kost 100 dollar, niet echt veel, zeker niet gezien het niveau van de training die je krijgt.

‘Het succes van die cursus was voor mij echt een verrassing. Net als vele journalisten had ik vooroordeel dat mensen niet willen betalen voor content op het internet. Toen we de cursus aan het voorbereiden waren, dachten we tussen 30 en 40 leerlingen te hebben. We zouden er een klein beetje geld uit kunnen halen. 30 is ook een mooi getal om mee te werken, we zouden mooie conversaties kunnen organiseren.

‘Maar twee uur nadat ik ‘Registration is open for the course with myself and Scott’ had getweet, waren er al 100 inschrijvingen. We waren echt onder de indruk. Na een week zaten we aan ons maximum van 200 mensen. Daarom besloten we de grens op te trekken naar 500. Daardoor moesten we wel extra lesgevers aannemen. Scott neemt het deel over D3 voor zijn rekening, maar hij zal 2 of 3 mensen hebben die hem ondersteunen.

‘Ik neem de eerste fase voor mijn rekening. Als er vragen komen als ‘Welke soort grafiek gebruik ik hier best? Moet ik gaan voor een kaart of een grafiek?’, dan beantwoord ik die. Maar we zullen veel vragen krijgen over code. De leerlingen zullen beginnen programmeren en hun code zal niet werken. Die moet dan gedebugd worden en wij moeten daar bij helpen. Daarom besloten we daar meer mensen op te zetten.

‘Maar het was dus een groot succes. Zo groot zelfs dat we denken aan een nieuwe cursus na de zomer. Want die zal ook terug vollopen. Mensen willen leren, wat fantastisch is. En ze willen leren wat wij doen, wat nog beter is.’

Een grote uitdaging voor visualisatie vandaag is dat veel mensen moeite hebben met het goed interpreteren van grafieken. Zal die zogenaamde visuele geletterdheid onder de bevolking toenemen?

Alberto Cairo: ‘Geen idee, maar ik ik gooi er in elk geval mijn volle gewicht voor in de strijd. Ik vind dat gecijferdheid en visuele geletterdheid universele vaardigheden moeten zijn, net als kunnen lezen en schrijven.

‘Mijn nieuwe boek zal hierover een interessant lijstje bevatten. De cartograaf Mark Monmonier beschrijft in  Mapping it out, overigens een uitstekend boek, een lijstje vaardigheden die iedereen zou moeten ontwikkelen:

  • geletterdheid, dus kunnen lezen en schrijven
  • mondelinge vaardigheden, jezelf kunnen uitdrukken met het gesproken woord
  • gecijferdheid, wat niet dadelijk betekent dat je met statistiek overweg moet kunnen, maar wel dat je kwantitatief kan redeneren, kan denken in cijfers
  • en de vierde vaardigheid: graphicacy, de vaardigheid om grafieken goed te kunnen lezen en te maken.

Ik voeg daar nog een vijfde vaardigheid aan toe: computeracy, begrijpen hoe computers werken, wat er aan de grondslag van ligt. De werking van een computer binnenin begrijpen en kunnen programmeren. Je moet uiteraard geen professionele programmeur worden, maar wel jezelf wat leren programmeren. Het maakt eigenlijk niet uit wat je leert.

Zoals formules in Excel?

Alberto Cairo: ‘Ik zou zeggen: wat meer dan dat. Een beetje Processing, bijvoorbeeld, of R, Python of nog iets anders. Elke programmeertaal heeft een andere woordenschat en andere syntax, maar de onderliggende principes zijn altijd hetzelfde: variabelen, arrays, conditionals. Dat kan je toepassen in elke programmeertaal en dat zal je manier van werken helemaal veranderen. Als je begrijpt hoe computers werken, dan verandert je dat, het verandert onze geest.

‘Ik vind dat die 5 vaardigheden aan bod moeten komen op school. Maar op dit moment onderwijzen we ze slecht, vooral gecijferdheid en computeracy.

‘Mijn eigen studenten weten niet wat een computer is. Ze weten hoe ze Facebook moeten gebruiken, hoe ze moeten Twitteren, maar ze weten niet wat een computer is of hoe die werkt.

‘Over graphicacy weten ze ook zo goed als niets: ze kennen iets van staafgrafieken en taartdiagrammen, maar daar blijft het bij. Ze leren niet hoe ze kaarten en grafieken kunnen gebruiken om er hun eigen voordeel mee te doen. Die vaardigheid moet onderwezen worden.

‘Vanmorgen (in zijn presentatie voor de NTTS2015 conferentie, nvdr) vermeldde ik John Tukey, hij is de grondlegger van de exploratory data analysis, een tak binnen de statistiek. Exploratory data analysis is eigenlijk niets meer dan visualisatie voor exploratie.

exploratorydataanalysis

‘En dat is enorm nuttig: het laat je toe je gegevens op een veel leukere manier te onderzoeken. Mensen houden daarvan. Als ik mensen voor de eerste keer met Tableau laat spelen is de reactie meestal: ‘Wow, zo heb ik de data nog nooit bekeken.’ Mensen worden enthousiast. Het is een zaak om de nieuwsgierigheid aan te wakkeren.

‘En als dat gebeurd is, wanneer je die deur op een kier heb gezet, dan is het veel gemakkelijk er om de onderliggende statistiek uit te leggen. Het is veel moeilijker statistiek uit te leggen als je begint met “Dit zijn de beschrijvende statistieken en hier zijn de formules.” Dat vinden mensen saai, niet iedereen is namelijk een nerd. Ik haatte dat ook toen ik op school zat. Het was pas later, toen ik er over las op mijn eentje, dat ik ontdekte hoe fijn statistiek kan zijn. Waarom onderwijzen we het dan niet zo?

‘Ik verzin dit alles niet zomaar. Statistici zeiden dit zelf ook al 40 jaar geleden. Waarom hebben we die omslag nog niet gemaakt? Waarom luisterden we niet naar Tukey toen hij dit zei?

‘Nadat je de data visueel hebt onderzocht, dan kan je verder gaan met analyses en het testen van hypotheses. Mensen zullen dan in de juiste stemming zijn, ze weten namelijk al dat er iets interessants in de data zit. Daarom zullen ze meer gemotiveerd zijn om ook de moeilijkere dingen te leren: variantie-analyse en dergelijke zaken. Dat is inderdaad moeilijk, dat zijn harde formules. Maar de studenten zullen er zin in hebben. Ze hebben dan namelijk begrepen dat ze het kunnen leren.

‘Statistiek en data-analyse worden vaak als magisch ervaren, omdat we het onderwijzen als magie. Formules, formules en meer formules. Maak het visueel, dat trekt de mensen er in en maakt hen enthousiast.

Las je mijn blogpost over de opgang van Explorable Explanations?

Alberto Cairo: ‘Dingen als Explorable Explanations zijn inderdaad de manier om bijvoorbeeld een normale verdeling uit te leggen of om aan te tonen hoe je een p-waarde kan berekenen bijvoorbeeld. Doe dat visueel, en liefst nog interactief, en de mensen zullen het begrijpen. Als je dat allemaal met woorden en formules moet uitleggen, zullen de meeste mensen verdwalen en het niet snappen.

‘Daar ligt nog een heel veld dat nog ontwikkeld moet worden. Er zijn al heel wat mensen mee bezig, maar er is nog heel veel werk in te doen.’

Lees ook Journalist is geen beroep, het eerste deel van dit interview.

Nog te verschijnen: De favoriete visualisaties van Alberto Cairo

Alberto Cairo: ‘Journalist is geen beroep’

Op dinsdag 10 maart zakte ik af naar het Keizer Karel-gebouw van de Europese Commissie in Brussel om de opening van de conferentie New Technics and Technologies 2015 van het Europese statistische bureau Eurostat bij te wonen. Onder de openingssprekers bevond zich namelijk ook Alberto Cairo.

Alberto geeft Information Graphics and Visualization aan de universiteit van Miami. Met zijn boek The Functional Art, dat in 2012 verscheen, groeide hij uit tot een van de evangelisten van de datavisualisatiegolf die ons vandaag overspoelt. Zo werd hij ook een gegeerd spreker in de academische wereld, de media en het bedrijfsleven.

De presentatie die hij gaf voor een 400-tal Europese statistici, Visualization for everyone (pdf, 28 Mb, of bekijk de video hier vanaf 1:49:45), vat zijn boodschap goed samen: iedereen kan zijn voordeel doen met datavisualisatie. Maar ook over journalistiek heeft hij heel wat interessant te zeggen, zo bleek uit het uurtje dat ik achteraf met hem kon spreken.

Alberto Cairo.

Alberto Cairo. © EJC

Alberto is een spraakwaterval, die zijn verhaal duidelijk goed voor elkaar heeft. Hij stak meteen van wal met zijn visie op journalistiek.

Alberto Cairo: ‘”Als je goed oplet in mijn les en goed studeert wat ik je leer, zal er je niks gebeuren als de nieuwindustrie ooit de dieperik in gaat,”  zeg ik mijn studenten vaak. Zelfs als alle kranten plots zouden verdwijnen, dan nog zullen mijn studenten allemaal een job hebben.

‘Journalistiek is in mijn ogen namelijk een universele vaardigheid.  Ik geloof dat mensen journalistiek onterecht gelijkstellen met kranten. Ik heb een veel bredere definitie van journalistiek.

Journalist is geen beroep, het is meer een activiteit, een ingesteldheid.

‘Journalist is geen beroep, het is meer een activiteit, een ingesteldheid. Ik hou van informatie verzamelen, informatie verwerken op een systematische en serieuze manier en ik wil die informatie goed overbrengen aan mijn collega’s, mijn gemeenschap en aan andere burgers. Dat is wat een journalist doet. Als je dat doet, gedraag je je als een journalist, ongeacht je eigenlijke beroep. Zo geef je burgers de informatie die ze nodig hebben om een goed leven te leiden.

‘Sommige mensen hebben daar andere ideeën over. Ze zijn van mening dat journalistiek een beroep is, dat enkel door professionals kan uitgevoerd worden. Daar ben ik het helemaal mee oneens.’

Kan je hier een voorbeeld van geven?

Alberto Cairo: ‘Zeker. Hier is een voorbeeld dat ik net op papier heb gezet voor mijn nieuwe boek.

‘Ik heb een tijd in Sao Paulo gewerkt, bij het Braziliaanse Epoca Magazine. In de stad is er een groot probleem van overstromingen: tijdens het regenseizoen leiden hevige regenbuiten tot overstromingen in verschillende delen van de stad. Door de slechte infrastructuur wordt eigenlijk de hele stad zo onder water gezet. Sommige wijken lijden structureel onder wateroverlast.

‘De overheid heeft de gegevens: ze weten welke zones het vaakst overstromen. Maar ze stellen die gegevens niet voor op een kaart. Het publiek krijgt de gegevens niet onder ogen: je moet al een analyst moet zijn om de gegevens te goed te kunnen interpreteren.

‘Op een dag las ik een interview in de krant met enkele studenten computerwetenschappen. En die hadden die journalistieke reflex. Ze redeneerden: “Daar zijn de data, en daar is de publieke nood aan informatie. Laten we daarom iets maken dat die complexe dataset verandert in iets wat het publiek kan begrijpen en laten we dat dan in handen van het publiek geven.” Zo maakten ze een interactieve kaart, waarop iedereen kan zien welke zones historisch gezien het meest overstroomden.

‘Toen ik ik dat artikel in de krant las, heb ik onmiddelijk de telefoon genomen en het nummer van de personeelsdienst gebeld. Ik zei hen: ‘Neem pagina zoveel van die krant. Daar zie je op lijn zoveel een naam. Bel die jongen en breng hem hier.’ Ze vonden zijn gegevens online en vroegen hem langs te komen voor een jobgesprek.

Ik antwoorde hem: ‘Nee, beste vriend, jij bent wel een journalist. Want wat jij doet is journalistiek: datagedreven, op feiten gebaseerde communicatie, die het leven van mensen kan verbeteren.”

‘Het eerste wat hij me vroeg was: “Waarom ben ik hier? Ik ben een computerwetenschapper, ik ben helemaal geen journalist.” Ik antwoorde hem: ‘Nee, beste vriend, jij bent wel een journalist. Want wat jij doet is journalistiek: datagedreven, op feiten gebaseerde communicatie, die het leven van mensen kan verbeteren.” Dat is journalistiek.

‘Journalistiek, dat is niet de krant of de radio. Journalistiek is een activiteit, een ingesteldheid. Het is een manier om naar de wereld te kijken. Jezelf ten dienste stellen van andere mensen door informatie te verzamelen, te filteren, te organiseren en beschikbaar te stellen, zodat mensen een beter leven kunnen leiden.’

Wat betekent dat voor opleidingen journalistiek?

Alberto Cairo: ‘Lessen journalistiek zouden niet moeten gaan over kranten. Scholen journalistiek zouden over de vaardigheden moeten gaan die ik net beschreef. Deze vaardigheden, die vroeger enkel te vinden waren bij kranten en magazines, zijn vandaag, door de tools die we ter beschikking hebben, een burgeractiviteit geworden.

Laten we niet proberen de mensen te desinformeren, te misleiden of hen spullen te doen kopen. Laten we proberen hen te informeren.

‘Er zullen altijd specialisten zijn, professionele journalisten, die dit soort werk in loondienst doen. Maar met deze vaardigheden kan iedereen zijn voordeel doen. En ik geloof echt dat de wereld een betere plaats wordt wanneer meer en meer mensen deze ethiek en deze manier van denken omarmen: laten we niet proberen de mensen te desinformeren, te misleiden of hen spullen te doen kopen. Laten we proberen hen te informeren. Als meer mensen zich deze instelling zouden aanmeten, dan zou de wereld er wat beter aan toe zijn.’

Gaat daar je volgende boek, The Thruthfull Art over?

Cover van The Truthful Art.

Cover van The Truthful Art.

Alberto Cairo: ‘Precies. In de eerste twee hoofdstukken beschrijf ik wat ik je net heb verteld: journalistiek moet een burgeractiviteit worden, iets dat iedereen zich eigen kan maken, een ingesteldheid. Een manier om naar de wereld te kijken, die gedeeltelijk wetenschappelijk is. Want je moet uiteraard de kwaliteit van je data kunnen inschatten. Maar ook design speelt een grote rol, want je moet weten hoe je de feiten moet voorstellen aan je publiek.

‘Maar de traditionele journalistieke vaardigheden zijn nog steeds van onschatbare waarde. Hoe je een verhaal schrijft, hoe je hiërarchie in je in informatie aanbrengt, hoe je eerst de belangrijke feiten geeft en daarna de achtergrond. Dat zijn vaardigheden die journalisten doorheen de jaren hebben ontwikkeld. Nu is de tijd aangebroken om al deze vaardigheden naar de rest van de wereld te brengen.

‘Wetenschap moet uit zijn ivoren toren kruipen. De wetenschappelijke methode kan je namelijk ook toepassen in je eigen leven. Trek niet te snel conclusies, test je conclusies, stop eventjes, verzamel meer data, vergelijk de zaken, bekijk het bewijsmateriaal. En na dat je al deze stappen hebt doorlopen, maak dan je beslissing. Dat is wetenschap.

Dus de Truthfull art is geen boek over visualisatie?

Alberto Cairo: ‘Het is wel een visualisatieboek, want ik leg al deze zaken uit aan de hand van voorbeelden uit de wereld van de visualisatie.

‘Het is een boek geschreven voor visualisatie-makers en voor journalisten. Mensen die een wetenschappelijke opleiding of een opleiding rond data gevolgd hebben, zijn een uitzondering in de wereld van visualisatie vandaag. Heel veel mensen uit de sector zijn grafisch ontwerper van opleiding. En die produceren geweldig werk. Maar in sommige gevallen hebben ze niet de nodige vaardigheden om de data kritisch te bekijken voor ze ze grafisch voorstellen.

‘De helft van het boek gaat daarom over algemene principes om datakwaliteit goed in te kunnen schatten. Dat gaat dan over statistiek, op een heel basisch niveau, en hoe de meest voorkomende valkuilen te vermijden. Ik ga niet in op details, ik behandel die zaken enkel heel in het algemeen.

‘In de tweede helft van het boek ga ik in op de principes van het ontwerpen van grafieken en kaarten, met veel praktische tips. Als laatste schets ik de profielen van een tiental leiders uit het vak die ik ga interviewen. Maar je zal nog nog even geduld hebben: het boek verschijnt pas in 2016.’

Nog te verschijnen:

  • ‘Maak het visueel en de mensen zullen het begrijpen’
  • De favoriete visualisaties van Alberto Cairo

De ironie is eigenlijk nog pijnlijker

Informatie zelf is vrij, maar de vorm waarin die informatie wordt gepresenteerd, mag niet worden gekopieerd, benadrukt Tom Naegels.

Zo begint de meest recente aflevering van de uitstekende rubriek Ombudsman van Tom Naegels in De Standaard. Naegels schrijft over een geval van plagiaat, waarbij een stuk over UFO’s in DS Avond letterlijke vertaling van stukken van een artikel op digg.com bleek te bevatten. De titel van het Ombudsman-stuk, ‘Pijnlijke ironie’, slaat op de hele discussie rond de plagiaatzaak van Luc Tuymans, die woedde op het moment dat DS Avond zelf dus plagiaat pleegde.

Maar eigenlijk is alles nog ironischer dan Naegels zelf beseft. De auteur van het plagiaatstuk is de grafisch redacteur van DS Avond en het feit dat hij geen schrijvend journalist, wordt nog net niet als excuus aangehaald voor het plagiaat:

Wat opvalt, is dat de redacteurs in kwestie zich er meestal niet van bewust waren dat het niet mocht. In alle gevallen ging het om journalisten die nieuw zijn op de redactie, erg jong en pas in het vak, of eigenlijk geen schrijvend journalist – zoals in dit geval.

Alsof een grafisch redacteur geen besef zou moeten hebben over wat plagiaat is. En wat alles nog ironischer maakt: de Tuymans-zaak draait niet om tekstplagiaat, maar om plagiaat met beelden.

Van mensen in de grafische sector mag je toch ook verwachten dat ze gevoelig zijn voor plagiaat? Op onze redactie drukken de fotoredacteurs iedereen regelmatig op het hart dat foto’s zoeken met Google Image Search om ze als illustratie te gebruiken bij artikels absoluut not done is. En op de redactie waar ik vroeger werkte werd het vergeten van een copyrightvermelding bij een foto, ook al was die aangekocht, als een serieuze fout aanzien.

Voorbij de bronvermelding

Dat er in de grafische poten van de Vlaamse nieuwsmedia (en zonder twijfel ook daarbuiten) soms geflirt wordt met de grenzen van plagiaat, daar schreef ik eerder al over. Vooral bij datavisualisaties wordt wel eens ‘vergeten’ de bron te vermelden, zowel van de de data als van de inspiratie voor het maken van de grafiek.

Naegels schrijft dat een bronvermelding alleen vaak niet genoeg is:

Een bronvermelding dient om de herkomst van informatie aan te wijzen – het is een erkenning van het feit dat een ander medium eerst was met het nieuws, of eventueel van het feit dat er nog enige onzekerheid over bestaat. ‘Er zou een bom ontploft zijn in het centrum van Bagdad. Dat schrijft The Guardian.’ Dat is een bronvermelding. Maar dan nog hoort het nog steeds niet om dat hele artikel van The Guardian vervolgens letterlijk over te schrijven. Daarvoor is er voorafgaandelijk toestemming nodig. En dan staat er een copyright-vermelding bij, geen bronvermelding.

Naegels besluit met een raadgeving:

Graag geef ik ook nog het heldere, eenvoudige principe mee, voor iedereen die er zijn voordeel mee wil doen. Informatie zelf is vrij. Maar de vorm waarin die informatie wordt gepresenteerd – in het geval van tekst de formuleringen, de grapjes die erbij worden gemaakt, de beeldspraak, de titel, de sfeerbeschrijvingen, alles wat die tekst uniek maakt – mag niet worden gekopieerd. Zelfs een klein stukje is al plagiaat.

Vervang in dit citaat ‘tekst’ door ‘grafiek’, ‘formuleringen’ door ‘vormen’, ‘beeldspraak’ door ‘lettertypes’ en ‘sfeerbeschrijvingen’ door ‘kleurenpaletten’ en je krijgt een goede omschrijving voor plagiaat in datavisualisatie.

Voorbeelden

Bekijk met deze omschrijving in het hoofd dan even deze voorbeelden. Allemaal verschenen ze zonder bronvermelding, laat staan een copyrightvermelding:

Uit, o ironie,  De Standaard (11 december 2013):

lonen_destandaard

Dit was het origineel:

Salary-forecast-2014-haygroup

Deze, uit het laatste nieuws van 6 januari 2015, is nog straffer:

hln_6jan2014

Zonder enige verwijzing naar het origineel, dat in oktober al verscheen op de Washington Post (vandaag trouwens prachtig geactualiseerd). De auteur van het artikel (niet van de illustratie), nadat ik hem hierop had gewezen: ‘Grafiek is idd. wat té gelijkend.

wapo_syria

En tot slot nog eentje van Knack, van februari 2014:

knack_copy

Het origineel, van Buzzfeed, waarnaar Knack het naliet in welke zin dan ook te verwijzen:

buzzfeed_org

Deze gevallen staan zeker niet alleen, een oplettend lezer ontdekt gemakkelijk nog andere voorbeelden.

Structure, copy, data

Zelf heb ik ook wel eens afgevraagd of sommige van mijn visualisaties niet te fel leunen op andermans werk. Leren van voorbeelden en geïnspireerd worden is een wezenlijk onderdeel in een creatieve en jonge discipline als datavisualisatie. Maar uiteraard gelden ook daar regels.

Ik legde daarom een van mijn grafieken eens voor aan een expert uit het veld,  Alberto Cairo  van de Universiteit van Miami. Dit was zijn antwoord:

tweet_cairo

Conclusie

Wanneer ook maar een klein beetje van de vorm waarin data is gevisualiseerd (vormen, kleuren, lettertypes, structurering, annotaties, …) gekopieerd wordt, is er sprake van plagiaat. Als je je enkel laat inspireren en andere structuren, data en tekst gebruikt is er geen sprake van plagiaat.

Maar een (inspiratie)bronvermelding kan natuurlijk nooit kwaad.

Cijfers spreken visueel: artikel in Ad Rem

Ik had het genoegen uitgenodigd te worden een artikel over datavisualisatie te schrijven voor Ad Rem, tijdschrift voor zakelijke communicatie. Hieronder vindt u de tekst van het artikel Cijfers spreken visueel, dat verscheen in de editie van oktober 2014 (dit is de ongeëditeerde versie).

Cijfers spreken visueel

‘As knowledge increases amongst mankind, and transactions multiply, it becomes more and more desirable to abbreviate and facilitate the modes of conveying information from one person to another, and from one individual to the many.’

Het lijkt een citaat onze hedendaagse tijd van internet, big data en communicatie aan de snelheid van het licht. Maar niets is minder waar. Het zijn de eerste woorden uit de Commercial and Political Atlas, door de Schot William Playfair gepubliceerd in 1786. Het boek bevatte de eerste lijn- en staafgrafieken uit de geschiedenis.

Op het einde van de achttiende eeuw bloeide de handel en landen en hun bestuurders kregen meer interesse in het becijferen van hun inkomsten en uitgaven, de aard en aantal van hun inwoners en de productie, invoer en uitvoer van grondstoffen. Voor het eerst werden deze gegevens systematisch bijgehouden en geanalyseerd. De statistische wetenschap ontlook.

Tegen deze achtergrond moeten we het leven van de Schotse ingenieur en architect William Playfair situeren. Geboren in 1759 nabij Dundee werd Playfair de uitvinder van zowel de lijngrafiek, de staafgrafiek als het taartdiagram. Hij is zo de grondlegger en pionier van de statistische grafieken, wat wij tegenwoordig datavisualisatie noemen.

640px-Playfair_TimeSeries

De eerste lijngrafiek uit de geschiedenis dateert uit 1786. Gemaakt door William Playfair (1759-1823) en gepubliceerd in The Commercial and Political Atlas. Public domain via Wikimedia Commons.

Inspiratie voor zijn uitvindingen vond hij ondermeer bij zijn broer John, professor in de wiskunde aan de Universiteit van Edinburgh. Die leerde hem dat ‘alles wat in cijfers kan worden uitgedrukt, kan worden weergegeven met lijnen.’

Enigszins verrassend is dat de door Playfair uitgevonden visuele taal om de werkelijkheid te beschrijven niet veel meer dan 200 jaar oud is, in tegenstelling tot bijvoorbeeld het schrift en de algebra, die al eeuwenoud zijn. Na zijn dood raakten William Playfair en zijn werk ook wat in de vergetelheid. Maar met een wereld die steeds meer door data gestuurd werd, groeide de interesse in datavisualisatie opnieuw aan het begin van de twintigste eeuw. En in de jaren 60 en 70, met de opkomst van de computer en de moderne statistiek, raakte het in sommige sectoren al vrij ingeburgerd.

Vandaag moet de grote massa er ook aan geloven en is datavisualisatie bijna een hype te noemen. William Playfair en zijn pionierswerk werden intussen van onder het stof vandaan gehaald en in ere hersteld.

Vroege waarneming

Nog een citaat uit het baanbrekende werk van Playfair uit 1786:
‘Wie met aandacht de paar lijntjes aanwijzingen voor het begrijpen van de grafieken leest, zal merken dat alle moeilijkheden voor het interpreteren volledig wegvallen. Zo kan in vijf minuten evenveel informatie worden opgenomen als wat met een tabel vol cijfers hele dagen zou vergen om blijvend onthouden te kunnen worden.’

Klinkt mooi en Playfair raakt hiermee ook aan de basisprincipes van de datavisualisatie. Maar hoe gaat dat dan precies in zijn werk?

Eerst en vooral hebben onze hersenen maar een beperkt werkgeheugen.

tabelpeilingen

Gegevens in tabelvorm zijn volledig, maar hebben slechts beperkte capatiteit om boodschappen over te brengen. Probeer volgende vragen zo snel mogelijk te beantwoorden:

  • Welke partij slaagde er als enige in een partij in te halen bij de peilingen van oktober 2013 ten opzichte van de verkiezingen van 2010?
  • Welke partij ging er als enige telkens op vooruit?

Er zijn simpelweg niet genoeg vakjes in ons hoofd om veel cijfers in op te slaan, waardoor het vergelijken en sorteren van cijfers intensief denkwerk vergt. Tabellen hebben het voordeel dat ze een groep cijfers in hun volledigheid kunnen weergeven, maar zijn beperkt in de mogelijkheid om de boodschap verborgen in deze cijfers over te brengen aan de lezer.

Waar onze hersenen wel over beschikken is de zogenaamde ‘vroege waarneming’. In tegenstelling met de late waarneming, waarmee we volledige voorwerpen (zoals een auto, een boom of een hond) waarnemen en herkennen, vergt de vroege waarneming geen sturing van aandacht en geheugen: ze verloopt voornamelijk automatisch en onbewust.

Met de vroege waarneming analyseren de hersenen bliksemsnel de elementaire visuele kenmerken van objecten, zoals kleur, vorm en locatie.

vroegewaarneming_kleur vroegewaarneming_positie vroegewaarneming_vorm

3 voorbeelden van de vroege waarneming. Het detecteren van afwijkende vormen, kleuren en posities door onze hersenen gebeurt bliksemsnel.

Datavisualisatie maakt handig gebruik van deze vroege waarneming om informatie in visuele vorm gemakkelijk interpreteerbaar te maken voor onze hersenen.

peilingen

De vroege waarneming helpt interpretatie. De scores van de politieke partijen worden nu visueel voorgesteld. De antwoorden op de vragen die bij de tabel gesteld werden zijn door de visuele voorstelling triviaal geworden.

Juiste codering

Datavisualisatie gaat dus om het visueel vertalen van cijfers naar (meestal abstracte) vormen, zodat deze sneller en beter geïnterpreteerd kunnen worden. Zaak is dus uiteraard om te kiezen voor de juiste codering van cijfers naar vormen om een juiste interpretatie te garanderen. Hier volgen enkele richtlijnen.

  • Gebruik lijngrafieken voor gegevens die evolueren in de tijd. De helling van de lijn geeft immers de trend weer. Zorg er hiervoor bij dat de tijd van links naar rechts loopt, wat de meest intuïtieve richting is voor het verloop van de tijd (dit is ook de reden waarom het pijltje van de playknop bijvoorbeeld naar rechts wijst).
  • Gebruik voor het vergelijken van categorieën staafgrafieken. Onze hersenen zijn goed uitgerust om de lengte van objecten en vormen in te schatten en te vergelijken. Laat de assen steeds op 0 beginnen, zoniet worden de verhoudingen tussen de categorieën niet correct weergegeven.
  • Vermijd taartdiagrammen. Het vergelijken van de oppervlaktes van de stukken van een taart is veel moeilijker dan het vergelijken van lengtes van staven. Gebruik voor het vergelijken van de samenstellende delen van een geheel daarom een in stukken verdeelde staaf.
  • Grafieken in 3D zijn mischien minder saai om naar te kijken, maar maken het moeilijker om de cijfers juist in te schatten. Beter vermijden dus.

Laat de grafiek werken, niet de lezer

Een juiste codering van cijfers naar afmetingen, vormen en kleuren van de elementen van een grafiek is echter niet voldoende om effectief cijfers visueel te communiceren. De hele boodschap van een grafiek moet door de lezer zo vlot mogelijk geconsumeerd kunnen worden. Deze tips kunnen hierbij helpen.

  • Wees spaarzaam met kleur. Bij een overdadig gebruik van verschillende kleuren op een grafiek, wordt het oog van de lezer niet geleid. Verwijs minder belangrijke zaken naar de achtergrond door lichte kleuren of grijs te gebruiken, benadruk de belangrijke zaken met een opvallende accentkleur.
  • Laat een grafiek niet meer dan 1 boodschap vertellen. Als je verschillende zaken over dezelfde cijfers wil vertellen, dupliceer dan de grafiek en benadruk op de twee grafieken de verschillende boodschappen. Herhaalde grafieken kunnen heel effectief zijn.
  • Vermijd zogenaamd ‘grafiekafval’. Dit zijn visuele elementen die enkel ter versiering dienen en die niet bijdragen tot een heldere interpretatie van de informatie.
  • Maak slim gebruik van labels. Met een doordachte integratie van tekst op een grafiek kunnen in veel gevallen elementen als een legende en hulplijnen overbodig gemaakt worden. Maar overlaad zeker de grafiek niet met een teveel aan labels.
  • Zet de centrale boodschap van je grafiek bovenaan als titel. Zo weet de lezer meteen waar hij aan toe is en waar hij op moet letten.
  • Vergeet nooit de gebruikte eenheden. Gaat het over kilometers, euro’s of tonnen? Zonder eenheden loopt de lezer verloren.
  • Vermijd ‘stijvenek-grafieken’ door tekst zoveel mogelijk horizontaal te plaatsen.

Voorbij de staafjes

Wil je wel eens verder gaan dan de lijntjes en staafjes van William Playfair? Dan is er goed nieuws: de laatste decennia zijn heel wat meer exotische vormen van visualisatie uitgevonden. Ook vandaag duiken er nog steeds nieuwe op. Mits je data de juiste structuur heeft zijn de volgende visualisaties misschien te overwegen.

Let wel: de meeste mensen zijn niet vertrouwd met deze grafieken. Hou dus rekening met de feeling voor cijfers (de ‘gecijferdheid’) en de vertrouwdheid met datavisualisatie van je doelpubliek. Een grafiek bedoeld voor bankiers, boekhouders of andere cijfervreters kan heel wat meer exotisme verdragen dan een grafiek bedoeld voor leken.

De puntenwolk komt overgewaaid uit de statistiek en is uitstekend geschikt om het verband tussen twee zaken aan te tonen. Stijgt de levensverwachting van landen wanneer ze rijker worden? Een puntenwolk kan het antwoord geven.

scatterplotEen bellendiagram is verwant aan de puntenwolk, maar geeft met kleur en groote van de symbolen nog meer gegevens weer.

bellendiagram

Een hellingsgrafiek is perfect geschikt om de evolutie tussen twee momenten in de tijd weer te geven.

hellingsgrafiek

Een chord diagram geeft stromen tussen verschillende entiteiten weer in een cirkelvorm. Wordt vaak gebruikt voor het weergeven van migraties en handelsrelaties.

chorddiagram

Een boomdiagram (treemap in het Engels) geeft tegelijk hiërarchie en grootteverhoudingen weer.

treemap

Een Sankey-diagram (genoemd naar zijn Ierse uitvinder Henri Sankey) is een stroomdiagram waarbij de grootte van de stroom wordt weergegeven door de breedte van de pijlen.

Sankeydiagram

Een stroomdiagram geeft evoluties van gegevens in de tijd weer, gecentreerd over een horizontale as waardoor een stroomeffect ontstaat.

stroomdiagram

Kaarten

Kaarten vormen een aparte categorie in de datavisualisatie. In tegenstelling tot lijngrafieken en taartdiagrammen zijn kaarten al eeuwenoud. Het zich kunnen situeren in de wereld is voor de mens nu eenmaal een veel basaler behoefte dan het goed kunnen interpreteren van cijfers.

Maar kaarten profiteren mee van de huidige populariteit van datavisualisaties. De beschikbaarheid van gebruiksvriendelijke tools als Google Maps hebben er toe geleid dat het maken van kaarten, eens het privilege van geografen en andere specialisten, nu is gedemocratiseerd en binnen het bereik ligt van iedereen met een internetverbinding.

Kaarten kunnen heel krachtig zijn. Ze kunnen een enorme dichtheid aan informatie bevatten: op een kleine oppervlakte kunnen ze door het gebruik van verschillende lagen heel veel informatie overbrengen. Een standaard topografische kaart bevat zo bijvoorbeeld al gauw informatie over waterlopen, wegen, hoogtelijnen, landgebruik en bebouwing. Hobbycartografen en communicators kunnen op Google Maps daar nog een laag met interessante plaatsen aan toevoegen om aan hun doelpubliek over te brengen.

Maar daar blijft het niet bij. Ook kaarten kunnen gebruikt worden voor het weergeven van statistieken.

Carte_figurative_de_l'instruction_populaire_de_la_France

Een van de eerste zogenaamde choroplethenkaart, waarbij geografische elementen worden ingekleurd volgens een bepaalde statistische waarde. Door Charles Dupin (1784-1873) [Public domain], via Wikimedia Commons

Voordeel van dergelijke kaarten is de directe connectie met de lezer: iedereen weet graag hoe zijn eigen woonplaats, gemeente of regio het doet ten opzichte van de buren.

Bij het maken van kaarten moeten echter twee grote valkuilen vermeden worden. Zet om te beginnen niet zomaar alles op een kaart wat je op een kaart zou kunnen zetten. Als uit de kaart geen geografische patronen kunnen worden afgelezen, dan is het wellicht meer aangewezen om de gegevens in een andere vorm weer te geven. Een kaart draagt in dat geval niet bij tot een betere interpretatie van de gegevens.

Tweede grote valkuil bij het maken van kaarten met statistische gegevens is de correlatie met bevolkingscijfers. Op kaarten die misdaadcijfers of energieverbruik weergeven zullen grote steden er altijd bovenuit steken. Niet meer dan logisch: zij bezitten de grootste bevolking en de grootste bevolkingsdichtheid. Om deze gegevens correct weer te geven op kaart moet er geschaald worden naar het aantal inwoners. Dus: aantal diefstallen per 1000 inwoners in plaats van aantal diefstallen en kilowattuur per inwoner in plaats van kilowattuur.

Tools

De kwaliteiten van Microsoft Excel op het vlak van datavisualisatie zijn onderschat. Het programma is heel veelzijdig als het op grafieken aankomt: heel wat soorten grafieken kunnen snel worden aangemaakt en het aanpassen van grafieken naar eigen smaak of huisstijl is steeds mogelijk.

Maar Excel heeft een slechte naam als het op het naleven van de regels van goede datavisualisatie aankomt. De standaardinstellingen van de grafieken (zoals de gebruikte kleuren, het gebruik van hulplijnen en legendes, …) zijn op zijn zachtst gezegd voor verbetering vatbaar. Met wat sleutelen aan de instellingen kunnen met Excel op korte tijd wel hele goede visualisaties worden gemaakt.

Voor de meer professionele gebruiker is er de Graph Tool in Adobe’s Illustrator. Met deze tool kunnen in Illustrator heel wat visualisatievormen worden aangemaakt, waarbij de gegevens in een tabel worden beheerd. De Graph Tool is niet de meest gebruiksvriendelijke of best uitgewerkte tool van Illustrator, maar voor ontwerpers die al vertrouwd zijn met Illustrator is dit wellicht de beste oplossing voor het maken van datavisualisaties.

De opties om online (interactieve) grafieken aan te maken en te publiceren blijven aangroeien. Heel vaak respecteren de instellingen van de geproduceerde grafieken wel de basisregels van de datavisualisatie. Enkele opties zijn de rekenbladfunctie van Google Drive, Infogr.am en Datawrapper.de. Deze laatste bewaart het best het evenwicht tussen gebruiksvriendelijkheid, kwaliteit van output en flexibiliteit.

Voor het maken van kaarten is er het gratis programma Quantum GIS (waarbij GIS staat voor Geografisch Informatiesysteem). Online zijn er de Maps Engine en Fusion Tables van Google, het veelbelovende Mapbox en het sterk op data gericht CartoDB.