Het mooie Belgische data-voorjaar

Bij het begin van 2015 kondigt het data- en visualisatievoorjaar zich prachtig aan in België: liefhebbers en professionals kunnen zich in de eerste helft van het jaar uitleven op liefst 5 conferenties van hoog niveau.

The Tableau Experience Brussels, 10 februari

Tableau is all about making data analytics fast, easy, beautiful, and most importantly – useful. Helping people gain insight into their data to solve unexpected problems is what drives us. During this event we’ll answer the question “What is Tableau?” and show you why we’re different from other business intelligence solutions. Stick around for happy hour and you’ll have a chance to get up close and demo Tableau for yourself.

Meer info

Open Belgium 2015, 23 februari

Join Open Data Pioneers, practitioners, thinkers, researchers and entrepreneurs from all across Belgium to learn and discuss the next steps in this conference by Open Knowledge Belgium and the Open Belgium community.

Meer info

News Impact Summit, 24 februari

After a successful pilot event in Vienna in October 2014, the News Impact Summit comes to Brussels, and will focus on new approaches and tools to cover the European Union, with a strong emphasis on data driven approaches. In partnership with L’Echo and De Tijd, Storycode, the Association of European Journalists and the PressClub Brussels-Europe, this one-day event will feature high-level journalism professionals as speakers, from major broadcast journalists to Belgian print managers, from social media news editors to data journalism practitioners.

Meer info

Data Summit Brussels, 5 maart

Open data, Big data, Smart data, Linked data. Data is the new oil for our economies. And you better have the right toolkit at hand. During this event, we present leading and cool tools to crawl, clean, convert, visualize and analyse data. And, we found this important, the tools are affordable for everyone. So, for all people interested in awesome data: data analists, data scientists, data journalists, open data evangelists, innovators, hackers, etc.

Meer info

New Techniques and Technologies for Statistics, 10-12 maart

New Techniques and Technologies for Statistics (NTTS) is an international biennial scientific conference series, organised by Eurostat, on new techniques and methods for official statistics, and the impact of new technologies on statistical collection, production and dissemination systems.

Niet echt bedoeld voor (data)journalisten, maar op het programma staat ook een keynote van professor datavisualisatie Alberto Cairo. Hij geeft op 11 maart ook een workshop in Utrecht.

Data Harvest+, 8-10 mei

Dataharvest+, the European Investigative and Data Journalism Conference organised by Journalismfund.eu, Farmsubsidy.org and Wobbing Europe, is the most relevant networking event for investigative and data journalists in Europe. Dataharvest 2015 will take place on Friday 8, Saturday 9 and Sunday morning 10 May 2015, with a pre-conference Hackaton on Thursday 7 May. Like the previous years, the conference will take place in the centre of Brussels.

Meer info

Data, visualisatie en storytelling: 10 conferenties om te volgen dit najaar

De vakantie loopt ten einde, maar op het vlak van datavisualisatie en datajournalistiek kondigt zich een druk conferentienajaar aan. Ik weet nog niet precies welke conferenties ik zelf zal kunnen meepikken, maar hieronder vind je een overzicht van de events die ik in mijn agenda aanstipte.

Sommige conferenties in de lijst zijn moeilijk bij te wonen (enkel op uitnodiging, gesitueerd in het verre buitenland, …). Omdat deze conferenties dikwijls ook vanop afstand te volgen zijn (vaak stellen ze video’s en ander materiaal ter beschikking), nam ik ze toch op in de lijst.

The Graphical Web

27-30 augustus, Winchester (Engeland)

The Graphical Web is an annual, global conference to showcase the many new open source technologies that have become available for presenting visual information on the web. The conference showcases best practice, new opportunities and future directions in the fast-changing world of web graphics and will be of direct appeal to a wide range of professionals throughout the technology, data visualization and graphics industries.

Visualize it

4-5 september, Hogeschool Utrecht

Tijdens Visualise it! gaan we op zoek naar (nieuwe) visuele oplossingen om informatie helder te maken. Diverse nationale en internationale experts laten u op 4 en 5 september kennismaken met hun werk en de visuele keuzes die zij hebben gemaakt.

Tableau Conference

8-12 september, Seattle

The Tableau Conference is a fun four days of learning how to better see and understand your data. With hundreds of learning opportunities, 5 stellar keynote addresses, and numerous networking opportunities, this is place to come and find out where your data will take you next.

Online News Association Conference

25-27 september, Chicago

The Online News Association’s 2014 Conference & Awards Banquet is the premier gathering of highly engaged digital journalists who are shaping the future of media. Record-breaking numbers of journalists travel to ONA’s conference each year to learn about new tools, techniques and technologies, to discuss advancements and challenges in the industry, take advantage of the rare opportunity to network face-to-face, and share best practices with peers from all over the map.

Future of Storytelling

1-2 oktober, New York

The Future of StoryTelling is an invitation-only, two-day gathering of technology, media, and communications visionaries from around the world. The summit is designed to put participants in direct contact with the most vital ideas, people, and technologies that are shaping the way we tell stories.

Open Data Dag Vlaanderen

3 oktober, Brussel

Benieuwd naar wat er aan diensten gerealiseerd wordt met Open Data? Kom dan naar de derde editie van de Open Data Dag Vlaanderen op vrijdag 3 oktober 2014 in het Boudewijngebouw in Brussel. Dit jaar is de gebruiker van Open Data aan het woord; bedrijven, organisaties, ontwikkelaars en individuen die met Open Data aan de slag gaan. Entrepreneurs en anderen die met deze data en informatie applicaties en web toepassingen bouwen die op hun beurt economische en sociale meerwaarde creëren.

European week of Regions and Cities

6-9 oktober, Brussel

The European Week of Regions and Cities will again bring together some 6000 regional representatives and experts in Brussels from 6-9 October. We’ll be hosting a couple of hundred journalists from across the EU at the event, which includes a specially designed media programme. Given the strong focus on the use of statistics to report about European regions and EU Cohesion Policy, we will be extending a special invitation this year to a limited number of data journalists.

VVOJ conferentie

7-8 november, Kortrijk

Op 7 en 8 november 2014 vindt de jaarlijkse conferentie van de Vereniging van Onderzoeksjournalisten VVOJ plaats. Het VVOJ congres is de grootste bijeenkomst van onderzoeksjournalisten in Vlaanderen in Nederland. Naast (uiteraard) de nieuwste technieken, mooiste verhalen en meest interessante trends zal het congres dit jaar ook speciale aandacht besteden aan onderzoek doen naar oorlog en vredesvraagstukken.

IEEEVIS

9-14 november, Parijs

IEEE VIS 2014 is the premier forum for advances in visualization. The event-packed week brings together researchers and practitioners from academia, government, and industry to explore their shared interests in tools, techniques, and technology. To celebrate its 25th anniversary in 2014, IEEE VIS comes for the first time in its history to Europe and the city of Paris, acknowledging the growing role of European research on visualization.

Visualized.io London

22 november, Londen

It’s time again for a VISUALIZED experience in Europe! Inspired by the success of our first independently organized event in Berlin, we are now moving to the next city. Join us this time in London for the second one-day conference where we will once again bring together passionate speakers who have visions and ideas to move the scene forward, who will talk about their projects, and who will inspire you.

7 gratis tools voor de datajournalist

Ik schafte me zopas een nieuw digitaal werkpaard aan en een van de eerste dingen dan is natuurlijk het installeren van nieuwe apps. Mijn favoriete tools voor het werken met data waren de eerste die ik downloadde. Alle 7 zijn het gratis programma’s en, op Tableau na, ook allemaal open source. Dit zijn ze:

refineOpen Refine

Open Refine (voorheen Google Refine) is een handig programma voor het opkuisen van data. Niet helemaal voor beginners (af en toe een lijntje code kan heel handig zijn), maar zeker de moeite om even de leercurve te beklimmen. Deze reeks videootjes is daar uitermate geschikt voor.

RStudioR en RStudio

R is een programma uit de statistiek. Het is heel krachtig, maar niet zo gebruiksvriendelijk. RStudio doet een goede poging om dit wat te verhelpen, door onder andere ook het maken van grafiekjes wat makkelijker te maken.

tableauTableau

Sinds kort is Tableau Public, de gratis versie van het visualisatieprogramma Tableau, ook beschikbaar voor Mac. Ik ben geen expert in Tableau, maar heb er al wel wat mee geëxperimenteerd. Veelzijdig en gebruiksvriendelijk, je maakt er mooie grafieken mee.

tilemillTilemill

Voor het maken van interactieve kaartjes die wat verder gaan dan de standaard Google Maps, 1 adres: Tilemill. Afkomstig uit dezelfde stal als het fantastische Mapbox.

qgisQGIS

Voor het werken met geodata is er het geografisch informatiesysteem (GIS) QGIS. Je maakt er ook statische kaartjes mee.

bracketsBrackets

Brackets is eigenlijk niet echt een tool voor het werken met data. Het is een teksteditor voor het schrijven van code, gemaakt voor html, css en javascript. Het beste van Brackets is de Live Preview: zonder je files op te hoeven slaan en je browser te refreshen zie je je aanpassingen direct in de browser (werkt wel enkel met Chrome).

Datajournalistiek op kleinere redacties: kwestie van weet hebben van

Dit artikel vormt de voorbereiding voor de sessie How data journalism affects the newsroom op de Datadays 2014.

Datajournalistiek is bezig aan een flinke opmars en wordt in sommige streken, voornamelijk in de Amerika’s, al stilaan volwassen. Maar in sommige delen van de wereld staat datajournalistiek nog in de kinderschoenen.

Een deel van de oorzaak hiervan is het “taalvijvereffect”: alleen in grote taalvijvers (denk Engels en Spaans) kunnen grote media en grote redacties gedijen. En alleen grote nieuwsmedia kunnen het zich veroorloven de nodige investeringen in datajournalistiek te doen om deze jonge tak van de journalistiek een integraal deel te laten uitmaken van hun business.

Maar ook voor kleinere redacties in kleinere taalvijvers, zoals de redacties in Vlaanderen en andere regio’s, is er een groot onbenut potentieel voor datajournalistiek

Uiteraard kunnen we niet verwachten van middelgrote en kleine redacties dat ze plots programmeurs, ontwerpers en datanerds gaan aannemen. Evenmin mogen we van journalisten op deze redacties verwachten dat zij alle skills voor het maken en publiceren van dataverhalen onder de knie gaan krijgen. Deze redacties moeten niet mikken op de grote datajournalistieke producties. Ze moeten wat lager mikken. Maar ook daar groeit nog laaghangend datajournalistiek fruit.

Hieronder beschrijf ik wat er volgens mij nodig is om datajournalistiek binnen te loodsen in kleinere redacties.

Weet hebben van

In elk geval moeten journalisten af van hun fobie voor alles wat met cijfers, statistieken en databanken te maken heeft. Een basiscursus Excel is een heel goede eerste stap hiervoor (wist je trouwens dat Excel ook een handige tool voor datavisualisatie is?)

Ik benadruk het woordje basis hier, omdat ik denk dat journalisten zeker geen experten in de verschillende disciplines van de datajournalistiek moeten worden. Wel zouden ze zich bewust moeten worden van wat data precies is, hoe het gestructureerd is en hoe het wordt verzameld, opgeslagen en bewerkt.

Journalisten zouden moeten weten welke tools er zoal bestaan en wat deze tools kunnen doen. Ze hoeven niet te leren werken met alle datatools: met een basistool als Excel geraak je al een heel eind. Maar weten wat er allemaal bestaat en wat de mogelijkheden zijn, kan journalisten doen helpen beseffen hoe datajournalistiek hun verhalen kan verbeteren en hoe het hen leads kan geven naar originele verhalen.

Als een journalist graag een grafiekje wil publiceren in een online artikel, dan zou hij weet moeten hebben van Datawrapper.

Als een journalist een lijst met adressen in handen krijgt, dan zou hij weet moeten hebben van Google Fusion Tables, dat zijn adressenlijst kan omtoveren in punten op een kaart.

Als een journalist geïnteresseerd is in data in een online databank, dan zou hij weet moeten hebben van scraping en de van de tools die hij kan gebruiken om de data in zijn bezit te kunnen krijgen.

Hij zou weet moeten hebben van csv-bestanden, url-parameters, Excel-formules, draaitabellen, Open Refine, integers en strings, boomdiagrammen, hellingsgrafieken en misschien zelfs van D3.js.

Hij moet geen expert in of dagelijks gebruiker van al deze zaken zijn. Hij moet er weet van hebben: weten dat ze bestaan en een (al dan niet vaag) besef hebben van wat ze doen, hoe ze er uit zien en hoe ze hem eventueel kunnen helpen bij zijn werk. Wanneer hij de nood voelt, kan de journalist zich wat verdiepen in een onderwerp of tool (documentatie raadplegen, wat experimenteren, leren van voorbeelden) en zo zijn datakennis aanscherpen. Bereid zijn om te leren is de boodschap.

Wanneer zaken toch te moeilijk worden, dan zou de journalist in staat moeten zijn om, in technische termen, uit te leggen aan anderen wat hij zou willen bereiken. Redacties zouden in dat geval beroep moeten doen op freelancers en consultants op het vlak van data en visualisatie (zulke freelancers steken vandaag met een zekere regelmaat de kop op). Deze “datafreelancers” kunnen data scrapen, opkuisen, vorm geven en visualiseren, naar de goed uitgewerkte en in het jargon geformuleerde richtlijnen van de redactie.

“Weet hebben van” is van toepassing op data zelf en op data tools, maar ook op databronnen: journalisten moeten weten waar data te halen en hoe naar data te zoeken. Ze hoeven geen dagelijks gebruiker te zijn van dataplatformen en -bronnen, maar ze moeten wel weten welke platformen er bestaan en welke data deze aanbieden.

Hoe weet krijgen van?

Eerst en vooral, zoals ik eerder al vermeldde: een cursus Microsoft Excel is een goede start voor elke journalist.

Leren van goede voorbeelden is een volgende stap. Datajournalistiek is een jonge, hippe en dynamische discipline, waarin heel wat media innovatieve projecten publiceren. Niet zelden houden deze media daarover een datablog bij, waarop ze schrijven over hun werk, de tools en workflows die ze gebruiken en waarop ze tutorials posten. Veel van de nieuwe datafreelancers hebben op hun website eveneens een blog (zoals deze).

Iemand met datavaardigheden op de redactievloer, journalist of niet-journalist, kan ook een goede basis vormen. Vraag bij het aannemen van nieuwe journalistieke krachten naar datavaardigheden (of nog belangrijker: de motivatie en mogelijkheden om deze snel op te pikken).

Een grote rol is ook weggelegd voor hogescholen en universiteiten die journalistieke opleidingen aanbieden. Elke afstuderende journalist zou op zijn minst wat vertrouwd moeten zijn met Excel en wat begrip moeten hebben van data, datatools, datavisualisatie en dataverhalen. Het tonen en laten evalueren van voorbeelden is een begin, het zelf laten produceren van dataverhalen is uiteraard beter.

Een grotere hoeveelheid en beter beschikbare (open) data van goede kwaliteit zal journalisten en redacties aanmoedigen te investeren in datavaardigheden.

Maar het allerbelangrijkste is het overwinnen van de angst voor cijfers en data en gewoon de datajournalistieke koe bij de horens te vatten. Begin met kleine datasets, eenvoudige tools en simpele visualisaties als staaf- en lijngrafieken om daarna verder te bouwen naar grotere datasets, kaarten, interactieve grafieken en meer exotische visualisaties.

Wanneer je je als beginner op de datajournalistiek stort, zal je al snel tegen problemen opbotsen en het gevoel krijgen vast te zitten. Laat je niet ontmoedigen. Ongetwijfeld is er al iemand je voorgegaan en op hetzelfde probleem gestoten. Het is dan enkel zaak weet te hebben van een of andere tool waarvan je denkt dat die wel eens nuttig zou kunnen zijn. Rest dan enkel nog met de juiste technische termen uit het datajournalistieke jargon op zoek te gaan naar de oplossing.

Waarom nieuwsmedia data moeten publiceren

Een paar goede en een paar slechte voorbeelden zetten me de voorbije dagen aan het denken over het publiceren van data bij artikels.

Slecht voorbeeld

Eerst het slechte voorbeeld. Ik was van plan deze grafiek uit Knack eens onder handen te nemen:

regenbooggrafiek

Mijn grootste kritieken op de grafiek: veel data maar weinig verhaal en veel kleur maar weinig houvast voor de lezer. Om een poging te ondernemen om de grafiek te verbeteren, ging ik op zoek naar de oorspronkelijke data. Knack vermeldt gelukkig wel de bron van de data: het World Hapiness report. (De doorklikkende lezer merkt dat de link leidt naar de downloadpagina van het rapport, niet naar de pdf van het rapport zelf. Niemand houdt van een pdf van tientallen megabyte in de browser, zonder eerst te kunnen nagaan of het de moeite is om het rapport te downloaden.)

Zo leerde ik  dat het ging om een gemiddelde van de jaren 2010-2012, wat in het artikel nergens ter sprake komt:

geluksgrafiek_origineel

Helaas geen annex met de data in het rapport. Wel in de FAQ op de website, het volgende antwoord:

Q: Where are the data in the World Happiness Report from?
A: All data are from the Gallup World Poll, not from surveys conducted by the authors directly.

Q: Can I have the data in excel format?
A: Unfortunately we are not able to provide that. Please look at the online appendix to chapter 2, which contains all of the information we are able to provide.

De gebruikte data zijn zeer waarschijnlijk dus in licentie gegeven, met een grote beperking op het publiceren van de brondata (die Gallup graag ook nog ergens anders hoopt te slijten). Helaas geen mogelijkheid dus om de grafiek van Knack eens onder handen te nemen.

Goed voorbeeld

Hoewel Knack de data zelf niet kon geven, was Knack was dus wel zo goed om de naam van het bronrapport te geven, wat bijlange niet altijd wordt gedaan. Online is het natuurlijk nog beter om een link te leggen naar het rapport zelf, wat al helemaal zeldzaam is.

Het goede voorbeeld wordt hier wat mij betreft gegeven door De Correspondent. Met hun duidelijke links naar meer achtergrondinfo in de marge, doen ze aan goede bronvermelding en bieden ze iets extra voor de geïnteresseerde lezer.

correspondent_link

Het nog betere voorbeeld

De Correspondent gaat zelfs nog een paar stappen verder: ze verzamelen zelf data en publiceren die volledig. En ze doen zelfs een oproep aan de lezer om zelf aan de slag te gaan met de data.

In het artikel Door wie worden we online gevolgd, presenteert De Correspondent (weliswaar in ruwe en nog onafgewerkte vorm) de resultaten van hun onderzoek naar tracking. De methode van dataverzameling wordt ook beschreven en onderaan volgt dan de oproep, met een link naar de data:

Ik ben benieuwd of een van jullie hiermee uit de voeten kan en laat het me vooral weten als je op- of aanmerkingen hebt over onze methode, dan wel over de data.

Ik weet niet of de oproep veel succes zal hebben, maar het volledig ter beschikking stellen van de (zelf verzamelde!) data is voor mij voorbeeldstellend.

Waarom?

Maar waarom voorbeeldstellend? Waarom zouden nieuwsmedia zich in hemelsnaam bezig moeten houden met het publiceren van data? Wel, omwille van de volgende redenen:

  • het is een extra service voor de geïnteresseerde lezer. Een deel van het lezerspubliek zal omwille hiervan sneller naar je website terugkeren. Misschien trek je wel een extra nieuw publiek aan.
  • het verhoogd de betrouwbaarheid en transparantie van je medium. Hoe kunnen we weten of de grafiek uit Knack geen fouten bevat als we geen enkele manier hebben om aan de brondata te komen?
  • het kost meestal weinig extra moeite om de data te publiceren. In het geval van De Correspondent was het gewoon zaak de data op te laden naar Google Drive en een linkje te leggen.
  • je kan aan crowdsourcing doen, zoals De Correspondent eigenlijk impliciet doet via zijn oproep. Laat je publiek de data doorzoeken en tips voor nader onderzoek aanreiken.

Alle data aan de lezer

Op basis van allerlei cijfers concludeert Knack deze week op de cover dat de Vlaamse steden krap bij kas zitten. Gespreid over 4 bladzijden wordt aan de hand van cijfers van de Vlaamse overheid, het Rijksregister, Belfius, Kind en Gezin en de VDAB getoond dat de financiële situatie van de 13 Vlaamse centrumsteden niet rooskleurig is.

introdossier

Goed dat Knack de weg naar deze data vond en er conclusies uit trekt. Bovendien is het artikel voorzien van heel wat goed leesbare grafiekjes en een kaartje. Enkele details zouden nog beter kunnen aan de visualisaties en tijdens het lezen van de tekst is het wel telkens zoeken naar de bijpassende grafiekjes, maar het resultaat mag er zijn.

gemeenteschulden

3 op 4 blijven op datahonger zitten

Maar wat als je, net als driekwart van de Vlamingen, niet in een centrumstad woont, maar wel in een van de 295 andere Vlaamse gemeenten? Dan blijf je op je datahonger zitten. De situatie van de centrumsteden is specifiek en inderdaad ernstiger dan deze van andere gemeenten, zoals blijkt uit de cijfers. Maar hier laat Knack een grote kans onbenut.

Op knack.be vinden we over dit dossier enkel het artikel Vlaamse steden krap bij kas, een korte samenvatting met de grafiekjes als afbeelding bijgevoegd. In de veronderstelling dat Knack beschikt over de data van alle gemeenten (waar we toch mogen vanuit gaan: het eerste deel van het artikel gaat over alle Vlaamse steden en gemeenten samen en een datadump voor alle gemeenten zou even gemakkelijk moeten gaan als een voor de 13 behandelde), zou online een mooie interactieve visualisatie kunnen uitgebouwd worden.

Uiteraard zou geïnvesteerd moeten worden in de ontwikkeling van een dergelijke ‘app’. Maar na alle moeite om de data te verzamelen slechts 4,2 procent van de data gebruiken (13 op 308 gemeenten) en driekwart van de Vlamingen onzichtbaar laten, lijkt mij niet efficiënt.

Nieuwsblad doet beter

Dat het ontsluiten van data online beter kan, bewijst nieuwsblad.be deze week. Ze gaan daarbij ook nog eens van het lokale (gemeente) naar het hyperlokale (wijk), een grote plus.

Op basis van gegevens over belastingaangiftes van de FOD Economie concludeerde Het Nieuwsblad dat de Leopold II-wijk in Tervuren de allerrijkste buurt van Vlaanderen is. De analyse in het artikel is heel beperkt, maar het interessantste deel staat onderaan.

Daar vinden we een visualisatie (gemaakt met het gratis Tableau Public), waar je de gegevens van de wijken van je eigen gemeente kunt opvragen.

Hiermee kan elke Vlaming opzoeken hoe hij het het er qua inkomen vanaf brengt ten opzichte van het gemiddelde in zijn wijk en hoe zijn wijk het doet ten opzichte van de andere wijken van zijn gemeente. Ook hier is nog veel ruimte voor verbetering (niet iedereen zal bijvoorbeeld de naam van zijn wijk kennen en de data schreeuwen natuurlijk om een weergave op kaart), maar alle gegevens zijn beschikbaar en doorzoekbaar.

Eerst print of online, eerst lezer of redactie?

Deze vergelijking laat een duidelijk verschil zien in strategie in het omgaan met data: Knack verzamelt data voor een papieren dossier en doet er online zo goed als niets mee, terwijl Het Nieuwsblad eerst online denkt en er in de krant maar beperkt aandacht aan besteedt (althans, dat denk ik toch. Ik ben geen Nieuwsbladlezer, maar zusterkrant De Standaard ging enkel een kijkje nemen in de duurste wijk en geeft een top 3 van rijkste en armste wijken in Vlaanderen).

Een datajournalist moet uit data verhalen kunnen halen. Dikwijls is het verhaal maar 1 facet of 1 afwijkende waarde in de data. Maar als het gaat over (hyper)lokale data, moet je de lezer (en zeker de online-lezer) de data kunnen geven die het meest relevant voor hem is. Het Nieuwsblad geeft de lezer de mogelijkheid zelf in de data te zoeken en stelt zo de lezer centraal. Knack geeft een goede analyse over 1 facet van de data (de steden), maar biedt driekwart van de Vlamingen geen antwoord op de vraag ‘Hoe zit het bij mij?’. Een gemiste kans, volgens mij: de eenvoudige visualisatie van nieuwsblad.be werd al meer dan 130.000 keer bekeken.