Cijfers spreken visueel: artikel in Ad Rem

Ik had het genoegen uitgenodigd te worden een artikel over datavisualisatie te schrijven voor Ad Rem, tijdschrift voor zakelijke communicatie. Hieronder vindt u de tekst van het artikel Cijfers spreken visueel, dat verscheen in de editie van oktober 2014 (dit is de ongeëditeerde versie).

Cijfers spreken visueel

‘As knowledge increases amongst mankind, and transactions multiply, it becomes more and more desirable to abbreviate and facilitate the modes of conveying information from one person to another, and from one individual to the many.’

Het lijkt een citaat onze hedendaagse tijd van internet, big data en communicatie aan de snelheid van het licht. Maar niets is minder waar. Het zijn de eerste woorden uit de Commercial and Political Atlas, door de Schot William Playfair gepubliceerd in 1786. Het boek bevatte de eerste lijn- en staafgrafieken uit de geschiedenis.

Op het einde van de achttiende eeuw bloeide de handel en landen en hun bestuurders kregen meer interesse in het becijferen van hun inkomsten en uitgaven, de aard en aantal van hun inwoners en de productie, invoer en uitvoer van grondstoffen. Voor het eerst werden deze gegevens systematisch bijgehouden en geanalyseerd. De statistische wetenschap ontlook.

Tegen deze achtergrond moeten we het leven van de Schotse ingenieur en architect William Playfair situeren. Geboren in 1759 nabij Dundee werd Playfair de uitvinder van zowel de lijngrafiek, de staafgrafiek als het taartdiagram. Hij is zo de grondlegger en pionier van de statistische grafieken, wat wij tegenwoordig datavisualisatie noemen.

640px-Playfair_TimeSeries

De eerste lijngrafiek uit de geschiedenis dateert uit 1786. Gemaakt door William Playfair (1759-1823) en gepubliceerd in The Commercial and Political Atlas. Public domain via Wikimedia Commons.

Inspiratie voor zijn uitvindingen vond hij ondermeer bij zijn broer John, professor in de wiskunde aan de Universiteit van Edinburgh. Die leerde hem dat ‘alles wat in cijfers kan worden uitgedrukt, kan worden weergegeven met lijnen.’

Enigszins verrassend is dat de door Playfair uitgevonden visuele taal om de werkelijkheid te beschrijven niet veel meer dan 200 jaar oud is, in tegenstelling tot bijvoorbeeld het schrift en de algebra, die al eeuwenoud zijn. Na zijn dood raakten William Playfair en zijn werk ook wat in de vergetelheid. Maar met een wereld die steeds meer door data gestuurd werd, groeide de interesse in datavisualisatie opnieuw aan het begin van de twintigste eeuw. En in de jaren 60 en 70, met de opkomst van de computer en de moderne statistiek, raakte het in sommige sectoren al vrij ingeburgerd.

Vandaag moet de grote massa er ook aan geloven en is datavisualisatie bijna een hype te noemen. William Playfair en zijn pionierswerk werden intussen van onder het stof vandaan gehaald en in ere hersteld.

Vroege waarneming

Nog een citaat uit het baanbrekende werk van Playfair uit 1786:
‘Wie met aandacht de paar lijntjes aanwijzingen voor het begrijpen van de grafieken leest, zal merken dat alle moeilijkheden voor het interpreteren volledig wegvallen. Zo kan in vijf minuten evenveel informatie worden opgenomen als wat met een tabel vol cijfers hele dagen zou vergen om blijvend onthouden te kunnen worden.’

Klinkt mooi en Playfair raakt hiermee ook aan de basisprincipes van de datavisualisatie. Maar hoe gaat dat dan precies in zijn werk?

Eerst en vooral hebben onze hersenen maar een beperkt werkgeheugen.

tabelpeilingen

Gegevens in tabelvorm zijn volledig, maar hebben slechts beperkte capatiteit om boodschappen over te brengen. Probeer volgende vragen zo snel mogelijk te beantwoorden:

  • Welke partij slaagde er als enige in een partij in te halen bij de peilingen van oktober 2013 ten opzichte van de verkiezingen van 2010?
  • Welke partij ging er als enige telkens op vooruit?

Er zijn simpelweg niet genoeg vakjes in ons hoofd om veel cijfers in op te slaan, waardoor het vergelijken en sorteren van cijfers intensief denkwerk vergt. Tabellen hebben het voordeel dat ze een groep cijfers in hun volledigheid kunnen weergeven, maar zijn beperkt in de mogelijkheid om de boodschap verborgen in deze cijfers over te brengen aan de lezer.

Waar onze hersenen wel over beschikken is de zogenaamde ‘vroege waarneming’. In tegenstelling met de late waarneming, waarmee we volledige voorwerpen (zoals een auto, een boom of een hond) waarnemen en herkennen, vergt de vroege waarneming geen sturing van aandacht en geheugen: ze verloopt voornamelijk automatisch en onbewust.

Met de vroege waarneming analyseren de hersenen bliksemsnel de elementaire visuele kenmerken van objecten, zoals kleur, vorm en locatie.

vroegewaarneming_kleur vroegewaarneming_positie vroegewaarneming_vorm

3 voorbeelden van de vroege waarneming. Het detecteren van afwijkende vormen, kleuren en posities door onze hersenen gebeurt bliksemsnel.

Datavisualisatie maakt handig gebruik van deze vroege waarneming om informatie in visuele vorm gemakkelijk interpreteerbaar te maken voor onze hersenen.

peilingen

De vroege waarneming helpt interpretatie. De scores van de politieke partijen worden nu visueel voorgesteld. De antwoorden op de vragen die bij de tabel gesteld werden zijn door de visuele voorstelling triviaal geworden.

Juiste codering

Datavisualisatie gaat dus om het visueel vertalen van cijfers naar (meestal abstracte) vormen, zodat deze sneller en beter geïnterpreteerd kunnen worden. Zaak is dus uiteraard om te kiezen voor de juiste codering van cijfers naar vormen om een juiste interpretatie te garanderen. Hier volgen enkele richtlijnen.

  • Gebruik lijngrafieken voor gegevens die evolueren in de tijd. De helling van de lijn geeft immers de trend weer. Zorg er hiervoor bij dat de tijd van links naar rechts loopt, wat de meest intuïtieve richting is voor het verloop van de tijd (dit is ook de reden waarom het pijltje van de playknop bijvoorbeeld naar rechts wijst).
  • Gebruik voor het vergelijken van categorieën staafgrafieken. Onze hersenen zijn goed uitgerust om de lengte van objecten en vormen in te schatten en te vergelijken. Laat de assen steeds op 0 beginnen, zoniet worden de verhoudingen tussen de categorieën niet correct weergegeven.
  • Vermijd taartdiagrammen. Het vergelijken van de oppervlaktes van de stukken van een taart is veel moeilijker dan het vergelijken van lengtes van staven. Gebruik voor het vergelijken van de samenstellende delen van een geheel daarom een in stukken verdeelde staaf.
  • Grafieken in 3D zijn mischien minder saai om naar te kijken, maar maken het moeilijker om de cijfers juist in te schatten. Beter vermijden dus.

Laat de grafiek werken, niet de lezer

Een juiste codering van cijfers naar afmetingen, vormen en kleuren van de elementen van een grafiek is echter niet voldoende om effectief cijfers visueel te communiceren. De hele boodschap van een grafiek moet door de lezer zo vlot mogelijk geconsumeerd kunnen worden. Deze tips kunnen hierbij helpen.

  • Wees spaarzaam met kleur. Bij een overdadig gebruik van verschillende kleuren op een grafiek, wordt het oog van de lezer niet geleid. Verwijs minder belangrijke zaken naar de achtergrond door lichte kleuren of grijs te gebruiken, benadruk de belangrijke zaken met een opvallende accentkleur.
  • Laat een grafiek niet meer dan 1 boodschap vertellen. Als je verschillende zaken over dezelfde cijfers wil vertellen, dupliceer dan de grafiek en benadruk op de twee grafieken de verschillende boodschappen. Herhaalde grafieken kunnen heel effectief zijn.
  • Vermijd zogenaamd ‘grafiekafval’. Dit zijn visuele elementen die enkel ter versiering dienen en die niet bijdragen tot een heldere interpretatie van de informatie.
  • Maak slim gebruik van labels. Met een doordachte integratie van tekst op een grafiek kunnen in veel gevallen elementen als een legende en hulplijnen overbodig gemaakt worden. Maar overlaad zeker de grafiek niet met een teveel aan labels.
  • Zet de centrale boodschap van je grafiek bovenaan als titel. Zo weet de lezer meteen waar hij aan toe is en waar hij op moet letten.
  • Vergeet nooit de gebruikte eenheden. Gaat het over kilometers, euro’s of tonnen? Zonder eenheden loopt de lezer verloren.
  • Vermijd ‘stijvenek-grafieken’ door tekst zoveel mogelijk horizontaal te plaatsen.

Voorbij de staafjes

Wil je wel eens verder gaan dan de lijntjes en staafjes van William Playfair? Dan is er goed nieuws: de laatste decennia zijn heel wat meer exotische vormen van visualisatie uitgevonden. Ook vandaag duiken er nog steeds nieuwe op. Mits je data de juiste structuur heeft zijn de volgende visualisaties misschien te overwegen.

Let wel: de meeste mensen zijn niet vertrouwd met deze grafieken. Hou dus rekening met de feeling voor cijfers (de ‘gecijferdheid’) en de vertrouwdheid met datavisualisatie van je doelpubliek. Een grafiek bedoeld voor bankiers, boekhouders of andere cijfervreters kan heel wat meer exotisme verdragen dan een grafiek bedoeld voor leken.

De puntenwolk komt overgewaaid uit de statistiek en is uitstekend geschikt om het verband tussen twee zaken aan te tonen. Stijgt de levensverwachting van landen wanneer ze rijker worden? Een puntenwolk kan het antwoord geven.

scatterplotEen bellendiagram is verwant aan de puntenwolk, maar geeft met kleur en groote van de symbolen nog meer gegevens weer.

bellendiagram

Een hellingsgrafiek is perfect geschikt om de evolutie tussen twee momenten in de tijd weer te geven.

hellingsgrafiek

Een chord diagram geeft stromen tussen verschillende entiteiten weer in een cirkelvorm. Wordt vaak gebruikt voor het weergeven van migraties en handelsrelaties.

chorddiagram

Een boomdiagram (treemap in het Engels) geeft tegelijk hiërarchie en grootteverhoudingen weer.

treemap

Een Sankey-diagram (genoemd naar zijn Ierse uitvinder Henri Sankey) is een stroomdiagram waarbij de grootte van de stroom wordt weergegeven door de breedte van de pijlen.

Sankeydiagram

Een stroomdiagram geeft evoluties van gegevens in de tijd weer, gecentreerd over een horizontale as waardoor een stroomeffect ontstaat.

stroomdiagram

Kaarten

Kaarten vormen een aparte categorie in de datavisualisatie. In tegenstelling tot lijngrafieken en taartdiagrammen zijn kaarten al eeuwenoud. Het zich kunnen situeren in de wereld is voor de mens nu eenmaal een veel basaler behoefte dan het goed kunnen interpreteren van cijfers.

Maar kaarten profiteren mee van de huidige populariteit van datavisualisaties. De beschikbaarheid van gebruiksvriendelijke tools als Google Maps hebben er toe geleid dat het maken van kaarten, eens het privilege van geografen en andere specialisten, nu is gedemocratiseerd en binnen het bereik ligt van iedereen met een internetverbinding.

Kaarten kunnen heel krachtig zijn. Ze kunnen een enorme dichtheid aan informatie bevatten: op een kleine oppervlakte kunnen ze door het gebruik van verschillende lagen heel veel informatie overbrengen. Een standaard topografische kaart bevat zo bijvoorbeeld al gauw informatie over waterlopen, wegen, hoogtelijnen, landgebruik en bebouwing. Hobbycartografen en communicators kunnen op Google Maps daar nog een laag met interessante plaatsen aan toevoegen om aan hun doelpubliek over te brengen.

Maar daar blijft het niet bij. Ook kaarten kunnen gebruikt worden voor het weergeven van statistieken.

Carte_figurative_de_l'instruction_populaire_de_la_France

Een van de eerste zogenaamde choroplethenkaart, waarbij geografische elementen worden ingekleurd volgens een bepaalde statistische waarde. Door Charles Dupin (1784-1873) [Public domain], via Wikimedia Commons

Voordeel van dergelijke kaarten is de directe connectie met de lezer: iedereen weet graag hoe zijn eigen woonplaats, gemeente of regio het doet ten opzichte van de buren.

Bij het maken van kaarten moeten echter twee grote valkuilen vermeden worden. Zet om te beginnen niet zomaar alles op een kaart wat je op een kaart zou kunnen zetten. Als uit de kaart geen geografische patronen kunnen worden afgelezen, dan is het wellicht meer aangewezen om de gegevens in een andere vorm weer te geven. Een kaart draagt in dat geval niet bij tot een betere interpretatie van de gegevens.

Tweede grote valkuil bij het maken van kaarten met statistische gegevens is de correlatie met bevolkingscijfers. Op kaarten die misdaadcijfers of energieverbruik weergeven zullen grote steden er altijd bovenuit steken. Niet meer dan logisch: zij bezitten de grootste bevolking en de grootste bevolkingsdichtheid. Om deze gegevens correct weer te geven op kaart moet er geschaald worden naar het aantal inwoners. Dus: aantal diefstallen per 1000 inwoners in plaats van aantal diefstallen en kilowattuur per inwoner in plaats van kilowattuur.

Tools

De kwaliteiten van Microsoft Excel op het vlak van datavisualisatie zijn onderschat. Het programma is heel veelzijdig als het op grafieken aankomt: heel wat soorten grafieken kunnen snel worden aangemaakt en het aanpassen van grafieken naar eigen smaak of huisstijl is steeds mogelijk.

Maar Excel heeft een slechte naam als het op het naleven van de regels van goede datavisualisatie aankomt. De standaardinstellingen van de grafieken (zoals de gebruikte kleuren, het gebruik van hulplijnen en legendes, …) zijn op zijn zachtst gezegd voor verbetering vatbaar. Met wat sleutelen aan de instellingen kunnen met Excel op korte tijd wel hele goede visualisaties worden gemaakt.

Voor de meer professionele gebruiker is er de Graph Tool in Adobe’s Illustrator. Met deze tool kunnen in Illustrator heel wat visualisatievormen worden aangemaakt, waarbij de gegevens in een tabel worden beheerd. De Graph Tool is niet de meest gebruiksvriendelijke of best uitgewerkte tool van Illustrator, maar voor ontwerpers die al vertrouwd zijn met Illustrator is dit wellicht de beste oplossing voor het maken van datavisualisaties.

De opties om online (interactieve) grafieken aan te maken en te publiceren blijven aangroeien. Heel vaak respecteren de instellingen van de geproduceerde grafieken wel de basisregels van de datavisualisatie. Enkele opties zijn de rekenbladfunctie van Google Drive, Infogr.am en Datawrapper.de. Deze laatste bewaart het best het evenwicht tussen gebruiksvriendelijkheid, kwaliteit van output en flexibiliteit.

Voor het maken van kaarten is er het gratis programma Quantum GIS (waarbij GIS staat voor Geografisch Informatiesysteem). Online zijn er de Maps Engine en Fusion Tables van Google, het veelbelovende Mapbox en het sterk op data gericht CartoDB.

Add Comment

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *