Alberto Cairo: ‘Journalist is geen beroep’

Op dinsdag 10 maart zakte ik af naar het Keizer Karel-gebouw van de Europese Commissie in Brussel om de opening van de conferentie New Technics and Technologies 2015 van het Europese statistische bureau Eurostat bij te wonen. Onder de openingssprekers bevond zich namelijk ook Alberto Cairo.

Alberto geeft Information Graphics and Visualization aan de universiteit van Miami. Met zijn boek The Functional Art, dat in 2012 verscheen, groeide hij uit tot een van de evangelisten van de datavisualisatiegolf die ons vandaag overspoelt. Zo werd hij ook een gegeerd spreker in de academische wereld, de media en het bedrijfsleven.

De presentatie die hij gaf voor een 400-tal Europese statistici, Visualization for everyone (pdf, 28 Mb, of bekijk de video hier vanaf 1:49:45), vat zijn boodschap goed samen: iedereen kan zijn voordeel doen met datavisualisatie. Maar ook over journalistiek heeft hij heel wat interessant te zeggen, zo bleek uit het uurtje dat ik achteraf met hem kon spreken.

Alberto Cairo.

Alberto Cairo. © EJC

Alberto is een spraakwaterval, die zijn verhaal duidelijk goed voor elkaar heeft. Hij stak meteen van wal met zijn visie op journalistiek.

Alberto Cairo: ‘”Als je goed oplet in mijn les en goed studeert wat ik je leer, zal er je niks gebeuren als de nieuwindustrie ooit de dieperik in gaat,”  zeg ik mijn studenten vaak. Zelfs als alle kranten plots zouden verdwijnen, dan nog zullen mijn studenten allemaal een job hebben.

‘Journalistiek is in mijn ogen namelijk een universele vaardigheid.  Ik geloof dat mensen journalistiek onterecht gelijkstellen met kranten. Ik heb een veel bredere definitie van journalistiek.

Journalist is geen beroep, het is meer een activiteit, een ingesteldheid.

‘Journalist is geen beroep, het is meer een activiteit, een ingesteldheid. Ik hou van informatie verzamelen, informatie verwerken op een systematische en serieuze manier en ik wil die informatie goed overbrengen aan mijn collega’s, mijn gemeenschap en aan andere burgers. Dat is wat een journalist doet. Als je dat doet, gedraag je je als een journalist, ongeacht je eigenlijke beroep. Zo geef je burgers de informatie die ze nodig hebben om een goed leven te leiden.

‘Sommige mensen hebben daar andere ideeën over. Ze zijn van mening dat journalistiek een beroep is, dat enkel door professionals kan uitgevoerd worden. Daar ben ik het helemaal mee oneens.’

Kan je hier een voorbeeld van geven?

Alberto Cairo: ‘Zeker. Hier is een voorbeeld dat ik net op papier heb gezet voor mijn nieuwe boek.

‘Ik heb een tijd in Sao Paulo gewerkt, bij het Braziliaanse Epoca Magazine. In de stad is er een groot probleem van overstromingen: tijdens het regenseizoen leiden hevige regenbuiten tot overstromingen in verschillende delen van de stad. Door de slechte infrastructuur wordt eigenlijk de hele stad zo onder water gezet. Sommige wijken lijden structureel onder wateroverlast.

‘De overheid heeft de gegevens: ze weten welke zones het vaakst overstromen. Maar ze stellen die gegevens niet voor op een kaart. Het publiek krijgt de gegevens niet onder ogen: je moet al een analyst moet zijn om de gegevens te goed te kunnen interpreteren.

‘Op een dag las ik een interview in de krant met enkele studenten computerwetenschappen. En die hadden die journalistieke reflex. Ze redeneerden: “Daar zijn de data, en daar is de publieke nood aan informatie. Laten we daarom iets maken dat die complexe dataset verandert in iets wat het publiek kan begrijpen en laten we dat dan in handen van het publiek geven.” Zo maakten ze een interactieve kaart, waarop iedereen kan zien welke zones historisch gezien het meest overstroomden.

‘Toen ik ik dat artikel in de krant las, heb ik onmiddelijk de telefoon genomen en het nummer van de personeelsdienst gebeld. Ik zei hen: ‘Neem pagina zoveel van die krant. Daar zie je op lijn zoveel een naam. Bel die jongen en breng hem hier.’ Ze vonden zijn gegevens online en vroegen hem langs te komen voor een jobgesprek.

Ik antwoorde hem: ‘Nee, beste vriend, jij bent wel een journalist. Want wat jij doet is journalistiek: datagedreven, op feiten gebaseerde communicatie, die het leven van mensen kan verbeteren.”

‘Het eerste wat hij me vroeg was: “Waarom ben ik hier? Ik ben een computerwetenschapper, ik ben helemaal geen journalist.” Ik antwoorde hem: ‘Nee, beste vriend, jij bent wel een journalist. Want wat jij doet is journalistiek: datagedreven, op feiten gebaseerde communicatie, die het leven van mensen kan verbeteren.” Dat is journalistiek.

‘Journalistiek, dat is niet de krant of de radio. Journalistiek is een activiteit, een ingesteldheid. Het is een manier om naar de wereld te kijken. Jezelf ten dienste stellen van andere mensen door informatie te verzamelen, te filteren, te organiseren en beschikbaar te stellen, zodat mensen een beter leven kunnen leiden.’

Wat betekent dat voor opleidingen journalistiek?

Alberto Cairo: ‘Lessen journalistiek zouden niet moeten gaan over kranten. Scholen journalistiek zouden over de vaardigheden moeten gaan die ik net beschreef. Deze vaardigheden, die vroeger enkel te vinden waren bij kranten en magazines, zijn vandaag, door de tools die we ter beschikking hebben, een burgeractiviteit geworden.

Laten we niet proberen de mensen te desinformeren, te misleiden of hen spullen te doen kopen. Laten we proberen hen te informeren.

‘Er zullen altijd specialisten zijn, professionele journalisten, die dit soort werk in loondienst doen. Maar met deze vaardigheden kan iedereen zijn voordeel doen. En ik geloof echt dat de wereld een betere plaats wordt wanneer meer en meer mensen deze ethiek en deze manier van denken omarmen: laten we niet proberen de mensen te desinformeren, te misleiden of hen spullen te doen kopen. Laten we proberen hen te informeren. Als meer mensen zich deze instelling zouden aanmeten, dan zou de wereld er wat beter aan toe zijn.’

Gaat daar je volgende boek, The Thruthfull Art over?

Cover van The Truthful Art.

Cover van The Truthful Art.

Alberto Cairo: ‘Precies. In de eerste twee hoofdstukken beschrijf ik wat ik je net heb verteld: journalistiek moet een burgeractiviteit worden, iets dat iedereen zich eigen kan maken, een ingesteldheid. Een manier om naar de wereld te kijken, die gedeeltelijk wetenschappelijk is. Want je moet uiteraard de kwaliteit van je data kunnen inschatten. Maar ook design speelt een grote rol, want je moet weten hoe je de feiten moet voorstellen aan je publiek.

‘Maar de traditionele journalistieke vaardigheden zijn nog steeds van onschatbare waarde. Hoe je een verhaal schrijft, hoe je hiërarchie in je in informatie aanbrengt, hoe je eerst de belangrijke feiten geeft en daarna de achtergrond. Dat zijn vaardigheden die journalisten doorheen de jaren hebben ontwikkeld. Nu is de tijd aangebroken om al deze vaardigheden naar de rest van de wereld te brengen.

‘Wetenschap moet uit zijn ivoren toren kruipen. De wetenschappelijke methode kan je namelijk ook toepassen in je eigen leven. Trek niet te snel conclusies, test je conclusies, stop eventjes, verzamel meer data, vergelijk de zaken, bekijk het bewijsmateriaal. En na dat je al deze stappen hebt doorlopen, maak dan je beslissing. Dat is wetenschap.

Dus de Truthfull art is geen boek over visualisatie?

Alberto Cairo: ‘Het is wel een visualisatieboek, want ik leg al deze zaken uit aan de hand van voorbeelden uit de wereld van de visualisatie.

‘Het is een boek geschreven voor visualisatie-makers en voor journalisten. Mensen die een wetenschappelijke opleiding of een opleiding rond data gevolgd hebben, zijn een uitzondering in de wereld van visualisatie vandaag. Heel veel mensen uit de sector zijn grafisch ontwerper van opleiding. En die produceren geweldig werk. Maar in sommige gevallen hebben ze niet de nodige vaardigheden om de data kritisch te bekijken voor ze ze grafisch voorstellen.

‘De helft van het boek gaat daarom over algemene principes om datakwaliteit goed in te kunnen schatten. Dat gaat dan over statistiek, op een heel basisch niveau, en hoe de meest voorkomende valkuilen te vermijden. Ik ga niet in op details, ik behandel die zaken enkel heel in het algemeen.

‘In de tweede helft van het boek ga ik in op de principes van het ontwerpen van grafieken en kaarten, met veel praktische tips. Als laatste schets ik de profielen van een tiental leiders uit het vak die ik ga interviewen. Maar je zal nog nog even geduld hebben: het boek verschijnt pas in 2016.’

Nog te verschijnen:

  • ‘Maak het visueel en de mensen zullen het begrijpen’
  • De favoriete visualisaties van Alberto Cairo

Oh ja, de foutenmarge is ± 3,2 %

Nieuwe peiling: N-VA duikt onder 30 procent (standaard.be)

N-VA duikt onder de 30 procent in nieuwe peiling (demorgen.be)

N-VA duikt onder de 30 procent in nieuwe peiling (deredactie.be)

N-VA duikt onder de 30 procent in nieuwe peiling (hln.be)

N-VA duikt onder onder de 30 procent in nieuwe peiling (knack.be)

Gekibbel zet N-VA en CD&V op verlies (mijn eigen tijd.be)

Nee, ik wil het hier niet hebben over het overnemen Belgaberichten, originele koppen of het gebruik van ‘%’ vs. ‘procent’. Ik wil het hier hebben over betrouwbaarheidsintervallen.

RTBF en La Libre Belgique laten het marktonderzoeksbureau Dedicated om de drie maanden een politieke barometer opmaken over de ‘kiesintenties en preoccupaties van de Belgen’, aldus de website van Dedicated (hoewel daar Le Soir wordt vermeld in plaats van La Libre).

In alle gevallen, behalve het artikel op tijd.be, zijn dit de afsluitende zinnen van het artikel:

De peiling werd afgenomen tussen 5 en 9 maart 2015 bij 911 Vlamingen, 907 Brusselaars en 908 Walen. De foutenmarge bedraagt voor elk van de groepen 3,2 procent.

Dat brengt ons meteen bij de kern van het probleem: de N-VA haalt in de peiling 28,8 procent, wat de marge met de magische 30 procent op 1,2 procent legt. Dat is beduidend lager dan de foutenmarge van 3,2 procent.

1000 Vlaamse kiezers

De bedoeling van een peiling is door middel van een enquête uitspraken te kunnen doen over de volledige populatie, in dit geval alle kiesgerechtigde Vlamingen. Maar telkens alle Vlamingen boven de 18 jaar bevragen is natuurlijk onmogelijk. Dat kost te veel tijd en en geld en daarom doen we dat enkel bij de verkiezingen zelf.

Onderzoeksbureau’s als Dedicated voeren daarom steekproeven uit onder de bevolking: uit een lijst met telefoonnummers kiezen ze een duizendtal personen uit die worden gecontacteerd om hun kiesintenties bekend te maken. Om betrouwbaar te kunnen zijn moet iedere Belg (of Vlaming) in principe evenveel kans maken om zo opgebeld te worden. We gaan er in dit artikel van uit dat dit voor deze steekproef het geval is (hoewel het heel goed mogelijk is dat dit niet zo is).

In tegenstelling tot echte verkiezingen, brengen steekproeven een mate van onzekerheid met zich mee. Een voorbeeld.

Stel dat het echte percentage N-VA-stemmers in Vlaanderen op dit moment exact 30 procent zou zijn. Dit valt moeilijk heel nauwkeurig te meten, maar we doen een poging om dit door middel van een politieke peiling te onderzoeken. We bellen willekeurig 1000 Vlamingen op en vragen op wie zij zouden stemmen als er vandaag verkiezingen zouden zijn. Van die 1000 zijn er 288 die aangeven N-VA te zullen stemmen. In deze peiling scoort de N-VA dus 28,8 procent.

Maar helaas gaan door een defecte harde schijf bij het peilingbureau de resultaten van deze peiling verloren. Er zit niets anders op dan opnieuw willekeurig 1000 mensen op te bellen. En tot de stomme verbazing van de peilers zijn er bij deze 1000 kiezers plots 321 N-VA stemmers. N-VA haalt plots 32,1 procent van de stemmen, wel 3,3 procent meer dan bij de eerste peiling, een paar uur daarvoor!

Het persbericht dat de peilers op basis van de eerste peiling hadden opgemaakt (‘N-VA duikt onder de 30 procent’) wordt samen met de kapotte harde schijf naar de prullenmand verwezen en vervangen door het bericht ‘N-VA ruim boven de 30 procent’.

Terwijl het echte percentage N-VA kiezers dus 30 % bedraagt, kunnen twee peilingen, met hetzelfde aantal ondervraagden, afwijkende resultaten opleveren. Hoe komt dat? Wel, toeval bij het selecteren van de ondervraagden creëert onzekerheid in de resultaten.

10 Vlaamse kiezers

Stel nu dat we in plaats van 1000 kiezers op te bellen, er maar 10 zouden opbellen. Door stom toeval zou het wel eens kunnen dat er zich onder deze 10 mensen geen enkele N-VA-stemmer bevindt (dus N-VA: 0 procent). Het zou ook wel eens kunnen dat het er 8 zijn (80 procent) of misschien zijn het toevallig alle 10 N-VA-stemmers (100 procent).

Hoe minder mensen we opbellen, hoe kleiner de steekproef is en hoe groter toeval het eindresultaat bepaalt. Als we 100 mensen zouden opbellen, zou het toch heel toevallig moeten zijn moesten dit allemaal N-VA-stemmers zijn. En als het er 1000 zijn, mogen we er van uitgaan dat de resultaten van de peiling in de buurt van de werkelijkheid liggen.

Betrouwbaarheidsintervallen

Maar ook als het er 1000 zijn speelt toeval nog altijd een grote rol: denk aan de 2 peilingen hierboven beschreven, waarbij verschillen van enkele procenten heel goed mogelijk zijn.

Slimme statistici hebben formules opgesteld om de toevalligheidsfactor bij steekproeven te becijferen. Ze doen dat door te zeggen: ‘Als we van 1000 van de 4 miljoen Vlaamse kiezers de politieke voorkeur kennen, dan zijn we voor 95 procent zeker dat het echte percentage N-VA stemmers gelegen is tussen de waarde die we berekend hebben, plus of min de foutenmarge.’

De exacte formule bespaar ik u hier (voor de die hards), maar de 28,8 procent die de N-VA bij de peiling van Dedicated haalde en de headlines op de Vlaamse websites bepaalde, doet er eigenlijk weinig toe. Waar het om gaat is het betrouwbaarheidsinterval waar de score van de N-VA zich met een bepaalde graad van waarschijnlijkheid in bevindt.

Ik rekende het uit en met een zekerheid van 95 % ligt de score van de N-VA op 28,8 ± 2,9 procent, of ergens tussen 25,9 en 31,7 procent. De werkelijke score van de N-VA zou dus wel eens boven de 30 procent kunnen liggen.

poll_13_maart_ok

Het enige wat we zouden kunnen doen om meer betrouwbare resultaten te krijgen is meer mensen ondervragen. Maar zelfs als het aantal ondervraagde mensen zou verhoogd worden, naar bijvoorbeeld 2000 personen, dan nog zou de foutenmarge ± 2 procent bedragen.

Dus?

Een goede evolutie is dat bij berichtgeving over peilingen tegenwoordig meestal de foutenmarge wordt meegegeven. Helaas wordt die enkel lippendienst bewezen, helemaal op het einde of in het begin van het artikel, en wordt er voor de rest van de berichtgeving nul komma nul rekening gehouden met de foutenmarge. Dat is eigenlijk hetzelfde als schrijven ‘We hebben uit onbetrouwbare bron vernomen dat…’ en vervolgens een heel artikel vol analyse van de onbetrouwbare uitspraken te produceren.

Mijn voorstellen om goed over peilingen te berichten:

  • Stel de resultaten grafisch voor, met weergave van de betrouwbaarheidsintervallen, zoals hierboven.
  • Geef geen scores tot achter de komma. Zulke precisie is zinloos.
  • Schrijf niet over kleine verschillen en verschuivingen. Die kunnen waarschijnlijk door het toeval verklaard worden.
  • Als er alleen maar kleine verschuivingen zijn (relatief ten opzichte van de betrouwbaarheidsintervallen), moet je je de vraag stellen of een artikel schrijven wel de moeite waard is. (Maar natuurlijk: er werd wel veel geld voor de peiling betaald. En mensen lezen die stukken toch…)

De ironie is eigenlijk nog pijnlijker

Informatie zelf is vrij, maar de vorm waarin die informatie wordt gepresenteerd, mag niet worden gekopieerd, benadrukt Tom Naegels.

Zo begint de meest recente aflevering van de uitstekende rubriek Ombudsman van Tom Naegels in De Standaard. Naegels schrijft over een geval van plagiaat, waarbij een stuk over UFO’s in DS Avond letterlijke vertaling van stukken van een artikel op digg.com bleek te bevatten. De titel van het Ombudsman-stuk, ‘Pijnlijke ironie’, slaat op de hele discussie rond de plagiaatzaak van Luc Tuymans, die woedde op het moment dat DS Avond zelf dus plagiaat pleegde.

Maar eigenlijk is alles nog ironischer dan Naegels zelf beseft. De auteur van het plagiaatstuk is de grafisch redacteur van DS Avond en het feit dat hij geen schrijvend journalist, wordt nog net niet als excuus aangehaald voor het plagiaat:

Wat opvalt, is dat de redacteurs in kwestie zich er meestal niet van bewust waren dat het niet mocht. In alle gevallen ging het om journalisten die nieuw zijn op de redactie, erg jong en pas in het vak, of eigenlijk geen schrijvend journalist – zoals in dit geval.

Alsof een grafisch redacteur geen besef zou moeten hebben over wat plagiaat is. En wat alles nog ironischer maakt: de Tuymans-zaak draait niet om tekstplagiaat, maar om plagiaat met beelden.

Van mensen in de grafische sector mag je toch ook verwachten dat ze gevoelig zijn voor plagiaat? Op onze redactie drukken de fotoredacteurs iedereen regelmatig op het hart dat foto’s zoeken met Google Image Search om ze als illustratie te gebruiken bij artikels absoluut not done is. En op de redactie waar ik vroeger werkte werd het vergeten van een copyrightvermelding bij een foto, ook al was die aangekocht, als een serieuze fout aanzien.

Voorbij de bronvermelding

Dat er in de grafische poten van de Vlaamse nieuwsmedia (en zonder twijfel ook daarbuiten) soms geflirt wordt met de grenzen van plagiaat, daar schreef ik eerder al over. Vooral bij datavisualisaties wordt wel eens ‘vergeten’ de bron te vermelden, zowel van de de data als van de inspiratie voor het maken van de grafiek.

Naegels schrijft dat een bronvermelding alleen vaak niet genoeg is:

Een bronvermelding dient om de herkomst van informatie aan te wijzen – het is een erkenning van het feit dat een ander medium eerst was met het nieuws, of eventueel van het feit dat er nog enige onzekerheid over bestaat. ‘Er zou een bom ontploft zijn in het centrum van Bagdad. Dat schrijft The Guardian.’ Dat is een bronvermelding. Maar dan nog hoort het nog steeds niet om dat hele artikel van The Guardian vervolgens letterlijk over te schrijven. Daarvoor is er voorafgaandelijk toestemming nodig. En dan staat er een copyright-vermelding bij, geen bronvermelding.

Naegels besluit met een raadgeving:

Graag geef ik ook nog het heldere, eenvoudige principe mee, voor iedereen die er zijn voordeel mee wil doen. Informatie zelf is vrij. Maar de vorm waarin die informatie wordt gepresenteerd – in het geval van tekst de formuleringen, de grapjes die erbij worden gemaakt, de beeldspraak, de titel, de sfeerbeschrijvingen, alles wat die tekst uniek maakt – mag niet worden gekopieerd. Zelfs een klein stukje is al plagiaat.

Vervang in dit citaat ‘tekst’ door ‘grafiek’, ‘formuleringen’ door ‘vormen’, ‘beeldspraak’ door ‘lettertypes’ en ‘sfeerbeschrijvingen’ door ‘kleurenpaletten’ en je krijgt een goede omschrijving voor plagiaat in datavisualisatie.

Voorbeelden

Bekijk met deze omschrijving in het hoofd dan even deze voorbeelden. Allemaal verschenen ze zonder bronvermelding, laat staan een copyrightvermelding:

Uit, o ironie,  De Standaard (11 december 2013):

lonen_destandaard

Dit was het origineel:

Salary-forecast-2014-haygroup

Deze, uit het laatste nieuws van 6 januari 2015, is nog straffer:

hln_6jan2014

Zonder enige verwijzing naar het origineel, dat in oktober al verscheen op de Washington Post (vandaag trouwens prachtig geactualiseerd). De auteur van het artikel (niet van de illustratie), nadat ik hem hierop had gewezen: ‘Grafiek is idd. wat té gelijkend.

wapo_syria

En tot slot nog eentje van Knack, van februari 2014:

knack_copy

Het origineel, van Buzzfeed, waarnaar Knack het naliet in welke zin dan ook te verwijzen:

buzzfeed_org

Deze gevallen staan zeker niet alleen, een oplettend lezer ontdekt gemakkelijk nog andere voorbeelden.

Structure, copy, data

Zelf heb ik ook wel eens afgevraagd of sommige van mijn visualisaties niet te fel leunen op andermans werk. Leren van voorbeelden en geïnspireerd worden is een wezenlijk onderdeel in een creatieve en jonge discipline als datavisualisatie. Maar uiteraard gelden ook daar regels.

Ik legde daarom een van mijn grafieken eens voor aan een expert uit het veld,  Alberto Cairo  van de Universiteit van Miami. Dit was zijn antwoord:

tweet_cairo

Conclusie

Wanneer ook maar een klein beetje van de vorm waarin data is gevisualiseerd (vormen, kleuren, lettertypes, structurering, annotaties, …) gekopieerd wordt, is er sprake van plagiaat. Als je je enkel laat inspireren en andere structuren, data en tekst gebruikt is er geen sprake van plagiaat.

Maar een (inspiratie)bronvermelding kan natuurlijk nooit kwaad.

Het mooie Belgische data-voorjaar

Bij het begin van 2015 kondigt het data- en visualisatievoorjaar zich prachtig aan in België: liefhebbers en professionals kunnen zich in de eerste helft van het jaar uitleven op liefst 5 conferenties van hoog niveau.

The Tableau Experience Brussels, 10 februari

Tableau is all about making data analytics fast, easy, beautiful, and most importantly – useful. Helping people gain insight into their data to solve unexpected problems is what drives us. During this event we’ll answer the question “What is Tableau?” and show you why we’re different from other business intelligence solutions. Stick around for happy hour and you’ll have a chance to get up close and demo Tableau for yourself.

Meer info

Open Belgium 2015, 23 februari

Join Open Data Pioneers, practitioners, thinkers, researchers and entrepreneurs from all across Belgium to learn and discuss the next steps in this conference by Open Knowledge Belgium and the Open Belgium community.

Meer info

News Impact Summit, 24 februari

After a successful pilot event in Vienna in October 2014, the News Impact Summit comes to Brussels, and will focus on new approaches and tools to cover the European Union, with a strong emphasis on data driven approaches. In partnership with L’Echo and De Tijd, Storycode, the Association of European Journalists and the PressClub Brussels-Europe, this one-day event will feature high-level journalism professionals as speakers, from major broadcast journalists to Belgian print managers, from social media news editors to data journalism practitioners.

Meer info

Data Summit Brussels, 5 maart

Open data, Big data, Smart data, Linked data. Data is the new oil for our economies. And you better have the right toolkit at hand. During this event, we present leading and cool tools to crawl, clean, convert, visualize and analyse data. And, we found this important, the tools are affordable for everyone. So, for all people interested in awesome data: data analists, data scientists, data journalists, open data evangelists, innovators, hackers, etc.

Meer info

New Techniques and Technologies for Statistics, 10-12 maart

New Techniques and Technologies for Statistics (NTTS) is an international biennial scientific conference series, organised by Eurostat, on new techniques and methods for official statistics, and the impact of new technologies on statistical collection, production and dissemination systems.

Niet echt bedoeld voor (data)journalisten, maar op het programma staat ook een keynote van professor datavisualisatie Alberto Cairo. Hij geeft op 11 maart ook een workshop in Utrecht.

Data Harvest+, 8-10 mei

Dataharvest+, the European Investigative and Data Journalism Conference organised by Journalismfund.eu, Farmsubsidy.org and Wobbing Europe, is the most relevant networking event for investigative and data journalists in Europe. Dataharvest 2015 will take place on Friday 8, Saturday 9 and Sunday morning 10 May 2015, with a pre-conference Hackaton on Thursday 7 May. Like the previous years, the conference will take place in the centre of Brussels.

Meer info

Op zoek naar een rijke vrijgezelle? Verhuis naar Linkebeek!

Een paar weken geleden gingen de resultaten van de Census 2011 online, de eerste volkstelling in België die volledig werd uitgevoerd op basis van databanken in plaats van een deur-tot-deur bevraging. Hier en daar kon je er in de pers wel over lezen, maar de echte rijkdom van deze dataset kwam nergens echt aan bod. Met deze demo wil ik hier graag verandering in brengen.

Stel: je bent al enige tijd vrijgezel en al even op zoek naar de vrouw van je leven. Je eisen zijn niet echt hoog: je hoopt enkel dat ze wat brood op de plank kan brengen. Maar toch is het vinden van de vrouw van je leven al een moeilijke zoektocht gebleken. Veel vrouwen loop je niet echt tegen het lijf en als dat toch eens gebeurt, blijken ze niet zelden al getrouwd te zijn.

Ondertussen word je stilaan lichtjes wanhopig en je neemt een drastisch besluit: je gaat verhuizen naar de plaats in Vlaanderen waar je het meeste kans hebt om de vrouw van je leven tegen te komen.

Gelukkig kan je wat met data overweg. De gegevens van de Census 2011, aangevuld met wat data over inkomens, en Tableau zijn alles wat je nodig hebt.

Daar ga je.

Tableau maakt het gemakkelijk om verschillende datasets aan elkaar te hangen.

Om tabellen met gemeentedata aan elkaar te plakken (join is de officiële term) gebruik je best NIS-codes

Eenmaal de data in Tableau, is het een kwestie van velden slepen en filters instellen. Je wil graag veel vrouwen kunnen ontmoeten en liefst zijn deze vrouwen niet getrouwd. Census 2011 heeft de ideale data voor jou: voor iedere gemeente wordt de verhouding tussen mannen en vrouwen gegeven en wordt ook weergegeven wat het aandeel getrouwde personen is. Dit zetten we in een puntenwolk, waarop we met kleur de gemeenten van elke provincie groeperen.

linkebeek1

Voor meer detail, zoomen we even in.

linkebeek2

Dat ziet er al heel goed uit. Gemeenten met relatief weinig gehuwde mensen vind je links, gemeenten met relatief veel vrouwen vind je bovenaan. Linksboven in de grafiek, daar moet je dus zijn.

Maar je Frans is niet geweldig, en dus besluit je franstalige gemeenten uit te sluiten met een filter.

linkebeek3

Mooi. Maar omdat je liefst zou willen dat je toekomstige niet onbemiddeld is, besluit je enkel de gemeenten met de hoogste gemiddelde inkomens in aanmerking te laten komen. Met de natte vinger leg je de grens op een gemiddeld inkomen op 16.000 euro per inwoner per jaar.

linkebeek4

Je nieuwe jachtterrein springt er links bovenaan meteen uit: Linkebeek, waar voor iedere 10 mannen 11 vrouwen wonen, waar maar 46 % van de inwoners getrouwd is en waar het gemiddelde inkomen per inwoner net geen 20.000 euro per jaar bedraagt, wordt je nieuwe thuis!

Mocht Linkebeek je toch niet zo liggen, verleg je territorium dan naar de andere gemeenten uit het kwadrant linksboven. Gent, Mortsel en kustgemeenten Oostende, Blankenberge en De Panne komen in aanmerking (maar voor deze laatste 3 zou ik toch ook even de gemiddelde leeftijd uit de Census 2011 nakijken).

Check hieronder zelf waar je best gaat wonen.

Twee supersnelle visualisatietools voor digitale redacties

Hoe komt een grafiek in de krant? Meestal gaat het zo: een journalist werkt aan een stuk en heeft een Excel-bestandje met wat data waar iets grafisch mee zou kunnen gedaan worden of hij heeft wat geodata die mooi op een kaartje zouden staan. Hij bezorgt de gegevens aan de vormgevers van de krant, of bij gebrek hieraan aan de mensen van de layout, die er mee aan de slag gaan. ’s Avonds, tegen de dagelijkse deadline, is de grafiek of de kaart hopelijk klaar en valt hij samen met de krant bij de abonnee in de bus of in het rek bij de krantenboer.

Maar voor online nieuws is dit proces hopeloos traag. Voor online nieuws moet het veel sneller gaan om relevant te zijn. Dat is waarom ik in mijn eerste weken bij mijn huidige werkgever (Mediafin, de uitgever van De Tijd en L’Echo) wat heb geïnvesteerd in het bouwen van de Grafiekbouwer en de Mapmaker, twee tooltjes om supersnel grafieken en kaartjes te maken.

Grafiekbouwer

Ik ben een groot liefhebber van interactieve grafieken. Maar in heel wat gevallen zijn de datasets te klein en kan interactiviteit maar heel weinig bijdragen aan een grafiek. Vaak zijn eenvoudige, statische grafieken alles wat je nodig hebt om een verhaal te vertellen of te kruiden.

Ik had al wel eens gehoord van de Chartbuilder van Quartz, een open source tool om heel snel net zulke grafieken te maken. Uit de beschrijving:

Chartbuilder is the final step in charting. Paste data into it and export an svg or png chart in a style that has been predefined.

Dat was precies wat ik wou.

Het eenvoudige van het klonen van de Chartbuilder tot de Grafiekbouwer was het aanpassen van de stijl. Het aanpassen van kleuren en lettertypes was met een beetje zoekwerk zo gebeurd.

Maar Chartbuilder is een Amerikaanse tool. Dat betekent dat het als decimaal teken een punt verwacht en komma’s gebruikt om duizendtallen te scheiden. Ik had net het omgekeerde nodig. Om dit aan te passen, moest ik even de hulp van een collega inroepen.

Ondertussen is de Grafiekbouwer up and running en zijn er al heel wat grafiekjes mee geproduceerd.

Belgi-vijfde-grootste-Champagneverbruiker-Aantal-verbruikte-flessen-in-miljoen-2013_chartbuilder

Bitcoin-piekte-vorig-jaar-boven-1-000-Bitcoin-in-dollar_chartbuilder

Voornamelijk-financi-le-bedrijven-betrokken-bij-Luxleaks-Aantal-keer-vermeld-in-Luxleaks-rulings-per-sector_chartbuilder

Waar-ligt-het-Nederlandse-goud-Minder-dan-1-3-van-het-Nederlandse-goud-bevindt-zich-in-Nederland_chartbuilder

Ik maakte ook een tutorial voor de collega’s.

Bonus: de Grafiekbouwer geneert ook html-code voor tabellen, wat ook mooie resultaten geeft.

Mapmaker

Geïnspireerd door de Grafiekbouwer, wou ik ook graag een tooltje om snel kaartjes te genereren. Uiteraard is een Google Map zo ingesloten, maar ook hier geldt dat interactiviteit soms overkill is.

Statische kaartjes, dus. Ik kende de Mapbox Static API al en ook in dit geval klonk de beschrijving mij als muziek in de oren:

Static maps are standalone images that can be displayed on web and mobile devices without the aid of a mapping library or API. A static map image looks like an embedded map without any interactivity or controls.

Mijn mosterd haalde ik bij staticmapmaker.com, maar ik wou een tooltje waarbij de interactieve kaart de interface is. Zo bouwde ik Mapmaker.

mapmaker

Hoe je de Mapmaker kan gebruiken:

  • zoom en pan naar het gebied dat je wil weergeven. Met de zoekbox linksonder kan je snel naar een land of gebied zoomen.
  • met de knop ‘Add marker’ kan je een icoontje op de kaart zetten. Je kan het daarna nog verslepen naar de juiste locatie of opnieuw verwijderen.
  • voor de taal van de basislaag kan je switchen tussen Frans en Engels (Nederlands is helaas niet mogelijk).
  • rechts en onderaan kan je de rand van het kaartje verslepen als je andere afmetingen wil.
  • als alles naar wens is ingesteld, brengt de knop ‘Get map’ je naar een statische afbeelding van de kaart. Deze kan je dan downloaden naar je computer om verder te gebruiken.

filipijnen

santiago

cordoba

brussel_mapmaker

Voor het maken van de basislagen heb ik Mapbox Studio gebruikt. Ik startte met een van de standaard kaartstijlen in Mapbox en paste daar de kleuren en nog enkele details van aan om de kaarten mooi bij de stijl van tijd.be en lecho.be te laten passen. Ik vertrok van een Engelstalige kaart, die ik dupliceerde en in het Frans zette voor de Franstalige versie.

De kaartjes zien er heel mooi uit, maar ze zijn natuurlijk niet ‘met de hand gemaakt’. Af en toe zit je met tekstlabels waar onvermijdelijk een deel van wordt weggekapt en de icoontjes kunnen ook wel eens een tekstlabel bedekken. Maar de snelheid en het gemak om ze te maken compenseren dat ruimschoots.

Snel visueel

Online nieuws is snel en visueel. Tools die snel visualisaties en kaartjes kunnen maken, passen dus perfect in de digitale nieuwsredactie. Open source tools als de Chartbuilder van Quartz schreeuwen er dus om gekloond, aangepast en gebruikt te worden.

Voor het produceren van kaarten (interactieve zowel als statische) is er volgens mij geen beter platform dan Mapbox. Op relatief korte tijd liet Mapbox mij toe om zelf een tooltje in elkaar te steken om supersnel kaartjes te genereren.

Geen nood meer dus aan de sowieso al druk bezette vormgevers en layouters van de krant om visualisaties te maken. Iedereen kan nu zelf supersnel de grafiekjes en kaartjes produceren die hij nodig heeft.

Cijfers spreken visueel: artikel in Ad Rem

Ik had het genoegen uitgenodigd te worden een artikel over datavisualisatie te schrijven voor Ad Rem, tijdschrift voor zakelijke communicatie. Hieronder vindt u de tekst van het artikel Cijfers spreken visueel, dat verscheen in de editie van oktober 2014 (dit is de ongeëditeerde versie).

Cijfers spreken visueel

‘As knowledge increases amongst mankind, and transactions multiply, it becomes more and more desirable to abbreviate and facilitate the modes of conveying information from one person to another, and from one individual to the many.’

Het lijkt een citaat onze hedendaagse tijd van internet, big data en communicatie aan de snelheid van het licht. Maar niets is minder waar. Het zijn de eerste woorden uit de Commercial and Political Atlas, door de Schot William Playfair gepubliceerd in 1786. Het boek bevatte de eerste lijn- en staafgrafieken uit de geschiedenis.

Op het einde van de achttiende eeuw bloeide de handel en landen en hun bestuurders kregen meer interesse in het becijferen van hun inkomsten en uitgaven, de aard en aantal van hun inwoners en de productie, invoer en uitvoer van grondstoffen. Voor het eerst werden deze gegevens systematisch bijgehouden en geanalyseerd. De statistische wetenschap ontlook.

Tegen deze achtergrond moeten we het leven van de Schotse ingenieur en architect William Playfair situeren. Geboren in 1759 nabij Dundee werd Playfair de uitvinder van zowel de lijngrafiek, de staafgrafiek als het taartdiagram. Hij is zo de grondlegger en pionier van de statistische grafieken, wat wij tegenwoordig datavisualisatie noemen.

640px-Playfair_TimeSeries

De eerste lijngrafiek uit de geschiedenis dateert uit 1786. Gemaakt door William Playfair (1759-1823) en gepubliceerd in The Commercial and Political Atlas. Public domain via Wikimedia Commons.

Inspiratie voor zijn uitvindingen vond hij ondermeer bij zijn broer John, professor in de wiskunde aan de Universiteit van Edinburgh. Die leerde hem dat ‘alles wat in cijfers kan worden uitgedrukt, kan worden weergegeven met lijnen.’

Enigszins verrassend is dat de door Playfair uitgevonden visuele taal om de werkelijkheid te beschrijven niet veel meer dan 200 jaar oud is, in tegenstelling tot bijvoorbeeld het schrift en de algebra, die al eeuwenoud zijn. Na zijn dood raakten William Playfair en zijn werk ook wat in de vergetelheid. Maar met een wereld die steeds meer door data gestuurd werd, groeide de interesse in datavisualisatie opnieuw aan het begin van de twintigste eeuw. En in de jaren 60 en 70, met de opkomst van de computer en de moderne statistiek, raakte het in sommige sectoren al vrij ingeburgerd.

Vandaag moet de grote massa er ook aan geloven en is datavisualisatie bijna een hype te noemen. William Playfair en zijn pionierswerk werden intussen van onder het stof vandaan gehaald en in ere hersteld.

Vroege waarneming

Nog een citaat uit het baanbrekende werk van Playfair uit 1786:
‘Wie met aandacht de paar lijntjes aanwijzingen voor het begrijpen van de grafieken leest, zal merken dat alle moeilijkheden voor het interpreteren volledig wegvallen. Zo kan in vijf minuten evenveel informatie worden opgenomen als wat met een tabel vol cijfers hele dagen zou vergen om blijvend onthouden te kunnen worden.’

Klinkt mooi en Playfair raakt hiermee ook aan de basisprincipes van de datavisualisatie. Maar hoe gaat dat dan precies in zijn werk?

Eerst en vooral hebben onze hersenen maar een beperkt werkgeheugen.

tabelpeilingen

Gegevens in tabelvorm zijn volledig, maar hebben slechts beperkte capatiteit om boodschappen over te brengen. Probeer volgende vragen zo snel mogelijk te beantwoorden:

  • Welke partij slaagde er als enige in een partij in te halen bij de peilingen van oktober 2013 ten opzichte van de verkiezingen van 2010?
  • Welke partij ging er als enige telkens op vooruit?

Er zijn simpelweg niet genoeg vakjes in ons hoofd om veel cijfers in op te slaan, waardoor het vergelijken en sorteren van cijfers intensief denkwerk vergt. Tabellen hebben het voordeel dat ze een groep cijfers in hun volledigheid kunnen weergeven, maar zijn beperkt in de mogelijkheid om de boodschap verborgen in deze cijfers over te brengen aan de lezer.

Waar onze hersenen wel over beschikken is de zogenaamde ‘vroege waarneming’. In tegenstelling met de late waarneming, waarmee we volledige voorwerpen (zoals een auto, een boom of een hond) waarnemen en herkennen, vergt de vroege waarneming geen sturing van aandacht en geheugen: ze verloopt voornamelijk automatisch en onbewust.

Met de vroege waarneming analyseren de hersenen bliksemsnel de elementaire visuele kenmerken van objecten, zoals kleur, vorm en locatie.

vroegewaarneming_kleur vroegewaarneming_positie vroegewaarneming_vorm

3 voorbeelden van de vroege waarneming. Het detecteren van afwijkende vormen, kleuren en posities door onze hersenen gebeurt bliksemsnel.

Datavisualisatie maakt handig gebruik van deze vroege waarneming om informatie in visuele vorm gemakkelijk interpreteerbaar te maken voor onze hersenen.

peilingen

De vroege waarneming helpt interpretatie. De scores van de politieke partijen worden nu visueel voorgesteld. De antwoorden op de vragen die bij de tabel gesteld werden zijn door de visuele voorstelling triviaal geworden.

Juiste codering

Datavisualisatie gaat dus om het visueel vertalen van cijfers naar (meestal abstracte) vormen, zodat deze sneller en beter geïnterpreteerd kunnen worden. Zaak is dus uiteraard om te kiezen voor de juiste codering van cijfers naar vormen om een juiste interpretatie te garanderen. Hier volgen enkele richtlijnen.

  • Gebruik lijngrafieken voor gegevens die evolueren in de tijd. De helling van de lijn geeft immers de trend weer. Zorg er hiervoor bij dat de tijd van links naar rechts loopt, wat de meest intuïtieve richting is voor het verloop van de tijd (dit is ook de reden waarom het pijltje van de playknop bijvoorbeeld naar rechts wijst).
  • Gebruik voor het vergelijken van categorieën staafgrafieken. Onze hersenen zijn goed uitgerust om de lengte van objecten en vormen in te schatten en te vergelijken. Laat de assen steeds op 0 beginnen, zoniet worden de verhoudingen tussen de categorieën niet correct weergegeven.
  • Vermijd taartdiagrammen. Het vergelijken van de oppervlaktes van de stukken van een taart is veel moeilijker dan het vergelijken van lengtes van staven. Gebruik voor het vergelijken van de samenstellende delen van een geheel daarom een in stukken verdeelde staaf.
  • Grafieken in 3D zijn mischien minder saai om naar te kijken, maar maken het moeilijker om de cijfers juist in te schatten. Beter vermijden dus.

Laat de grafiek werken, niet de lezer

Een juiste codering van cijfers naar afmetingen, vormen en kleuren van de elementen van een grafiek is echter niet voldoende om effectief cijfers visueel te communiceren. De hele boodschap van een grafiek moet door de lezer zo vlot mogelijk geconsumeerd kunnen worden. Deze tips kunnen hierbij helpen.

  • Wees spaarzaam met kleur. Bij een overdadig gebruik van verschillende kleuren op een grafiek, wordt het oog van de lezer niet geleid. Verwijs minder belangrijke zaken naar de achtergrond door lichte kleuren of grijs te gebruiken, benadruk de belangrijke zaken met een opvallende accentkleur.
  • Laat een grafiek niet meer dan 1 boodschap vertellen. Als je verschillende zaken over dezelfde cijfers wil vertellen, dupliceer dan de grafiek en benadruk op de twee grafieken de verschillende boodschappen. Herhaalde grafieken kunnen heel effectief zijn.
  • Vermijd zogenaamd ‘grafiekafval’. Dit zijn visuele elementen die enkel ter versiering dienen en die niet bijdragen tot een heldere interpretatie van de informatie.
  • Maak slim gebruik van labels. Met een doordachte integratie van tekst op een grafiek kunnen in veel gevallen elementen als een legende en hulplijnen overbodig gemaakt worden. Maar overlaad zeker de grafiek niet met een teveel aan labels.
  • Zet de centrale boodschap van je grafiek bovenaan als titel. Zo weet de lezer meteen waar hij aan toe is en waar hij op moet letten.
  • Vergeet nooit de gebruikte eenheden. Gaat het over kilometers, euro’s of tonnen? Zonder eenheden loopt de lezer verloren.
  • Vermijd ‘stijvenek-grafieken’ door tekst zoveel mogelijk horizontaal te plaatsen.

Voorbij de staafjes

Wil je wel eens verder gaan dan de lijntjes en staafjes van William Playfair? Dan is er goed nieuws: de laatste decennia zijn heel wat meer exotische vormen van visualisatie uitgevonden. Ook vandaag duiken er nog steeds nieuwe op. Mits je data de juiste structuur heeft zijn de volgende visualisaties misschien te overwegen.

Let wel: de meeste mensen zijn niet vertrouwd met deze grafieken. Hou dus rekening met de feeling voor cijfers (de ‘gecijferdheid’) en de vertrouwdheid met datavisualisatie van je doelpubliek. Een grafiek bedoeld voor bankiers, boekhouders of andere cijfervreters kan heel wat meer exotisme verdragen dan een grafiek bedoeld voor leken.

De puntenwolk komt overgewaaid uit de statistiek en is uitstekend geschikt om het verband tussen twee zaken aan te tonen. Stijgt de levensverwachting van landen wanneer ze rijker worden? Een puntenwolk kan het antwoord geven.

scatterplotEen bellendiagram is verwant aan de puntenwolk, maar geeft met kleur en groote van de symbolen nog meer gegevens weer.

bellendiagram

Een hellingsgrafiek is perfect geschikt om de evolutie tussen twee momenten in de tijd weer te geven.

hellingsgrafiek

Een chord diagram geeft stromen tussen verschillende entiteiten weer in een cirkelvorm. Wordt vaak gebruikt voor het weergeven van migraties en handelsrelaties.

chorddiagram

Een boomdiagram (treemap in het Engels) geeft tegelijk hiërarchie en grootteverhoudingen weer.

treemap

Een Sankey-diagram (genoemd naar zijn Ierse uitvinder Henri Sankey) is een stroomdiagram waarbij de grootte van de stroom wordt weergegeven door de breedte van de pijlen.

Sankeydiagram

Een stroomdiagram geeft evoluties van gegevens in de tijd weer, gecentreerd over een horizontale as waardoor een stroomeffect ontstaat.

stroomdiagram

Kaarten

Kaarten vormen een aparte categorie in de datavisualisatie. In tegenstelling tot lijngrafieken en taartdiagrammen zijn kaarten al eeuwenoud. Het zich kunnen situeren in de wereld is voor de mens nu eenmaal een veel basaler behoefte dan het goed kunnen interpreteren van cijfers.

Maar kaarten profiteren mee van de huidige populariteit van datavisualisaties. De beschikbaarheid van gebruiksvriendelijke tools als Google Maps hebben er toe geleid dat het maken van kaarten, eens het privilege van geografen en andere specialisten, nu is gedemocratiseerd en binnen het bereik ligt van iedereen met een internetverbinding.

Kaarten kunnen heel krachtig zijn. Ze kunnen een enorme dichtheid aan informatie bevatten: op een kleine oppervlakte kunnen ze door het gebruik van verschillende lagen heel veel informatie overbrengen. Een standaard topografische kaart bevat zo bijvoorbeeld al gauw informatie over waterlopen, wegen, hoogtelijnen, landgebruik en bebouwing. Hobbycartografen en communicators kunnen op Google Maps daar nog een laag met interessante plaatsen aan toevoegen om aan hun doelpubliek over te brengen.

Maar daar blijft het niet bij. Ook kaarten kunnen gebruikt worden voor het weergeven van statistieken.

Carte_figurative_de_l'instruction_populaire_de_la_France

Een van de eerste zogenaamde choroplethenkaart, waarbij geografische elementen worden ingekleurd volgens een bepaalde statistische waarde. Door Charles Dupin (1784-1873) [Public domain], via Wikimedia Commons

Voordeel van dergelijke kaarten is de directe connectie met de lezer: iedereen weet graag hoe zijn eigen woonplaats, gemeente of regio het doet ten opzichte van de buren.

Bij het maken van kaarten moeten echter twee grote valkuilen vermeden worden. Zet om te beginnen niet zomaar alles op een kaart wat je op een kaart zou kunnen zetten. Als uit de kaart geen geografische patronen kunnen worden afgelezen, dan is het wellicht meer aangewezen om de gegevens in een andere vorm weer te geven. Een kaart draagt in dat geval niet bij tot een betere interpretatie van de gegevens.

Tweede grote valkuil bij het maken van kaarten met statistische gegevens is de correlatie met bevolkingscijfers. Op kaarten die misdaadcijfers of energieverbruik weergeven zullen grote steden er altijd bovenuit steken. Niet meer dan logisch: zij bezitten de grootste bevolking en de grootste bevolkingsdichtheid. Om deze gegevens correct weer te geven op kaart moet er geschaald worden naar het aantal inwoners. Dus: aantal diefstallen per 1000 inwoners in plaats van aantal diefstallen en kilowattuur per inwoner in plaats van kilowattuur.

Tools

De kwaliteiten van Microsoft Excel op het vlak van datavisualisatie zijn onderschat. Het programma is heel veelzijdig als het op grafieken aankomt: heel wat soorten grafieken kunnen snel worden aangemaakt en het aanpassen van grafieken naar eigen smaak of huisstijl is steeds mogelijk.

Maar Excel heeft een slechte naam als het op het naleven van de regels van goede datavisualisatie aankomt. De standaardinstellingen van de grafieken (zoals de gebruikte kleuren, het gebruik van hulplijnen en legendes, …) zijn op zijn zachtst gezegd voor verbetering vatbaar. Met wat sleutelen aan de instellingen kunnen met Excel op korte tijd wel hele goede visualisaties worden gemaakt.

Voor de meer professionele gebruiker is er de Graph Tool in Adobe’s Illustrator. Met deze tool kunnen in Illustrator heel wat visualisatievormen worden aangemaakt, waarbij de gegevens in een tabel worden beheerd. De Graph Tool is niet de meest gebruiksvriendelijke of best uitgewerkte tool van Illustrator, maar voor ontwerpers die al vertrouwd zijn met Illustrator is dit wellicht de beste oplossing voor het maken van datavisualisaties.

De opties om online (interactieve) grafieken aan te maken en te publiceren blijven aangroeien. Heel vaak respecteren de instellingen van de geproduceerde grafieken wel de basisregels van de datavisualisatie. Enkele opties zijn de rekenbladfunctie van Google Drive, Infogr.am en Datawrapper.de. Deze laatste bewaart het best het evenwicht tussen gebruiksvriendelijkheid, kwaliteit van output en flexibiliteit.

Voor het maken van kaarten is er het gratis programma Quantum GIS (waarbij GIS staat voor Geografisch Informatiesysteem). Online zijn er de Maps Engine en Fusion Tables van Google, het veelbelovende Mapbox en het sterk op data gericht CartoDB.

De datavisualisatie checklist

Enkele maanden geleden publiceerden Stephanie Evergreen en Ann Emery, twee Amerikaanse specialisten in datavisualisatie en het communiceren van cijfers, de Data Visualization Checklist. Met de checklist bieden ze iedereen die betere grafieken wil maken een leidraad, in 25 puntjes.

Ik vroeg hen of ik een Nederlandse vertaling mocht maken, en ze waren zo vriendelijk om mij hiervoor de toelating te geven. Bij deze presenteer ik hier de Nederlandse versie.

datavizchecklist_screenshot

Het moet gezegd: de checklist is gericht op zakelijke grafieken, die helder en kernachtig een boodschap moeten overbrengen. Maar iedereen die wel eens grafieken maakt, in welke vorm en met welk doel dan ook, kan uit de 25 punten van de checklist zonder twijfel iets leren over hoe je best kan communiceren met cijfers en grafieken.

Handig is ook dat je met de checklist een grafiek kan scoren en zo dus kan nagaan welke versie van een zelfde grafiek de beste is.

Aarzel dus niet: download de checklist en evalueren maar, die grafieken!

Wéér te gretig statistiek aan de kant gezet

Naar aanleiding van mijn blogbericht over een grafiek die verscheen in de weekendkrant van De Standaard, schreef de ombudsman van De Standaard, Tom Naegels, een repliek: Wéér te gretig in een peiling getrapt?. Ik schrijf hier een repliek op de repliek.

De bewuste grafiek.

De bewuste grafiek.

Even ter opfrissing, de boodschap van mijn kritiek:

  • een peiling met resultaten die niet buiten de betrouwbaarheidsintervallen vallen, gebruik je beter niet om trends aan te tonen, aangezien de verschillen niet significant zijn. Bij een peiling onder dezelfde bevolking op hetzelfde moment kunnen de resultaten namelijk net zo goed omgekeerd zijn.
  • de grafiek werd overgetekend van een grafiek van het bureau dat de peiling uitvoerde. Daarbij werd van een van de grafieken het rechtereinde vervangen door andere gegevens (technisch: een moving average, dat stabieler is over langere periodes, werd vervangen door het dagelijks gemiddelde, dat veel volatieler is)

De kernboodschap van de repliek van Tom Naegels:

“Ik denk dus dat Maarten Lambrechts in dit geval last had van de tunnelvisie van een dataspecialist. Door louter te focussen op die ene grafiek, los van de context van het hele stuk, deed hij het uitschijnen alsof De Standaard als een gebuisde eerstejaarsstudent statistiek zijn nieuws had opgehangen aan een verwaarloosbaar verschil van 1%. Terwijl deze grafiek slechts een element was in een bredere analyse, en er bovendien relevantere zaken uit werden gebruikt dan die ene procent.”

Waarom ik er over schreef

Ik focuste me inderdaad op de grafiek, dat is nu eenmaal wat ik doe: ik evalueer visualisaties. Maar ik lees uiteraard ook telkens het artikel waar de grafiek bij is gevoegd. Twee zaken maakten dat ik, ondanks een voornemen om me meer op mijn eigen werk en minder op dat van wat nu “de concurrentie” is te richten, toch besloot over de grafiek te schrijven:

  1. Nergens wordt in de tekst melding gemaakt van betrouwbaarheidsintervallen (of de “foutenmarge” zoals dat meestal in de pers genoemd wordt). Er is staat letterlijk “… raakte gisteren bekend dat de Conservatieven opnieuw – voor het eerst sinds maart 2012 – aan de leiding liggen in de peilingen. In een poll van YouGov halen de Tories 35 %, tegenover 34 % voor Labour.
  2. De titel van de grafiek, door Naegels “wellicht wat stellig” genoemd: “Tories wippen over Labour in de peilingen”.

Zoals hoger vermeld zijn beide uitspraken omwille van de betrouwbaarheidsintervallen problematisch.

Not all graphs are equal?

Daar gewoon over stappen door te stellen dat het grafiekje maar “klein, links onderaan de pagina” staat, enkel ter illustratie van een deeltje van het hele artikel, vind ik nogal vreemd.

Dat is eigenlijk zeggen dat enkel voor grote grafieken die de hoofdboodschap van een artikel moeten staven, moet gewaakt worden dat ze de werkelijkheid weerspiegelen en het “ware” verhaal vertellen. Bij kleine grafiekjes steekt dat allemaal dus niet zo nauw.

Maar ok, misschien heb ik wel “de tunnelvisie van de dataspecialist” (wat ik eerder een voordeel dan een nadeel en een compliment vind) en moet ik, samen met iedereen met een notie van statistiek, dit maar door de vingers zien.

Op heel glad ijs

Maar wat ik eigenlijk veel erger vind, is dat Naegels niet ingaat op het tweede deel van mijn kritiek. Een deel van een grafiek werd uitgegomd en simpelweg hertekend op basis van andere gegevens. Ik vermoed dat de maker van de grafiek niet begrepen had dat het oorspronkelijk om 2 verschillende grafieken ging en vond hij het veel mooier om de ene grafiek als een uitvergroting uit de andere grafiek te laten springen, wat op het origineel niet het geval was.

Een grafiek werd dus gewoon hertekend, data werd vervangen door andere data, omdat het toevallig beter uitkwam. Naegels ziet er op Twitter weinig graten in: het hele verhaal over de cijfers zou leiden tot statistische technicaliteiten, die toch niets aan het verhaal zouden wijzigen. Het is ook geen “gesjoemel” volgens hem, aangezien er bij de grafiek helemaal niet wordt vermeld of het om moving averages dan wel dagelijkse cijfers gaat.

Maar zo begeven we ons op wel heel glad ijs. Waar trek je dan de grens? Op die manier kan je namelijk eender welke cijfers en grafieken bij een verhaal plaatsen. Te ingewikkelde cijfers (voor lezer of journalist)? Geen probleem: we hoeven het toch niet uit te leggen. Grafiek ziet er niet uit zoals gewenst? Ook geen probleem: we hertekenen even, het wijzigt toch niets aan het verhaal. En: we zetten het maar even links onderaan de pagina, dan maakt het toch niet veel uit.

Oplossing

De beste manier om dergelijke fouten te vermijden is geen grafieken over te tekenen (wat veel te vaak gebeurt), maar te vertrekken van de brondata zelf. Met de data voor zich had de maker van de grafiek een veel beter beeld gehad van wat de cijfers nu juist betekenen en had hij (hopelijk) niet de neiging gehad om de 2 grafieken door elkaar te halen. Het probleem met het interpreteren van peilingresultaten is een heel andere discussie. Lees daarover het uitstekende De peilingencarrousel draait door.

Door niet over te tekenen maar de grafiek zelf te genereren vanuit de data, vermijd je ook de fout waar ik zelf nog had overgekeken: de labels van UKIP en LIBDEMS werden omgewisseld op de grafiek. Het is wat tekenend dat voor deze fout (wat niet meer is dan een eenvoudige vergissing) een rechtzetting wordt gepubliceerd in de krant en op de website, terwijl aan de echt journalistieke fouten (het ontbreken van relevante, statistische duiding en het hertekenen van een deel van een grafiek met andere data) een draai wordt gegeven alsof het voor de lezer toch allemaal te ingewikkeld is en het voor hem of haar toch niet uitmaakt.

Zo, tot zover mijn kritiek op andere media, nu tijd voor eigen werk. Ik leerde uit de hele discussie in elk geval de gevaren van het overtekenen van grafieken, een waarschuwing hierover zal ik vanaf nu dan ook meegeven aan ieder die zich door mij iets wil laten bijbrengen over datavisualisatie.

Wanneer je beter geen grafiek publiceert

Vandaag in De Standaard, het artikel Cameron roert anti-Europese trom (bis) (paywall), vergezeld van volgende grafiek:

IMG_0650

Daar word ik dus echt moe van. Iedereen met een notie van statistiek hoort bij een verschil van 1 procent in de peilingen meteen al alle alarmbellen afgaan. Een dergelijk verschil kan in een volgende peiling helemaal omgedraaid zijn zonder dat de mening van de populatie veranderd is. Maar zelfs The Guardian valt er voor.

Sampling error

Daarom dacht ik: even die betrouwbaarheidsintervallen checken (het artikel van The Guardian meldt dat er 2.133 Britse volwassenen werden bevraagd). Maar dat bleek zelfs niet nodig. Op de site van het peilingenbureau Yougov vond ik de volgende passage over dit peilingresultaat (de nadruk is van mij):

On its own, a single poll should be regarded with some care. A one-point lead is well within sampling error; and YouGov has frequently reported very small Labour leads in recent weeks. Our latest figures are not so very different from those. Or, the poll may be a blip, reflecting a real but short-lived boost for the Tories following their party’s annual conference and David Cameron’s well-received speech. The days ahead will tell us whether there has been a lasting shift in perceptions of the parties seven months ahead of next year’s election.

Vrij vertaald: deze peiling bewijst niets, hopelijk zijn de verschillen bij de polls van de volgende dagen groter, zodat we wel iets te vertellen zullen hebben. Niet echt materiaal om een artikel of een grafiek in de krant aan te wijden, dus.

Terzijde: volgens mijn berekeningen is het betrouwbaarheidsinterval (95 %) gelijk aan ongeveer +/- 2 %.

Fout overgetekend

De grafiek bij het artikel van Yougov leek me meteen wel heel vertrouwd:

YGVI

Er is echter een verschil tussen beide grafieken: die van Yougov geeft aan dat de grafiek over de lange termijn een Rolling average (voortschrijdend gemiddelde) betreft. De kleine grafiek geeft een Daily % weer. Dat is ook de rede waarom de blauwe en en rode lijn op de grote grafiek op het einde elkaar niet kruisen en deze op de kleine grafiek wel.

Dit onderscheid wordt in De Standaard niet gemaakt. De grote grafiek wordt simpelweg overgetekend, met uitzondering van het rechtereinde: daar wordt deze gewoon aangepast om in overeenstemming te zijn met de dagelijkse gegevens. Nergens wordt melding gemaakt van een voortschrijdend gemiddelde of van dagelijkse percentages.

In mijn ogen dus een overbodige grafiek, die dan nog eens fout wordt overgetekend omdat de oorspronkelijke grafiek niet goed werd begrepen. Behoorlijk fout, als je het mij vraagt.