Hoe zoek, structureer en analyseer je data in een wereld met een stortvloed aan data?

De wereld krijgt een stortvloed van data over zich heen. In al die data zit heel veel nuttige informatie verstopt. Helaas heeft niet iedereen de tijd, vaardigheden of middelen om het eruit te halen. Daarom zoekt, structureert en analyseert Datagraver data. Voor wie doen ze dat? En hoe vinden ze de juiste data? We vroegen het Stephan Okhuijsen, Chief Datagraver.

Kun je jezelf even kort voorstellen? Wie ben je en waar werk je?

Mijn naam is Stephan Okhuijsen en ik werk bij Itude, waarvan Datagraver een onderdeel is. Het grootste deel van de tijd ben ik gedetacheerd als IT interim/project/programma manager bij diverse organisaties. Tussendoor ben ik bezig met Datagraver om een breed publiek te informeren over mogelijkheden (open) data en vaak kleinere organisaties te helpen vraagstukken op te lossen aan de hand van data.

Kun je wat meer vertellen over je rol bij Datagraver?
Vanuit mijn ene rol heb ik onder andere AirMiles, iDeal en TransFollow op de wereld gezet. Maar vanuit Datagraver werk ik minder met toepassingen en meer met eenvoudige grafieken en tabellen, of andere analyses op (grote hoeveelheden) data. Zoals bijvoorbeeld een analyse over de armoedegrens en de kosten van roken (70.000 gezinnen zakken daardoor onder de armoedegrens). Maar een tijd geleden heb ik wel met twee anderen een toepassing gemaakt voor de eerste SODA, een rechtspraaknetwerkbrowser. 


En momenteel heb ik met weer iemand anders een tool online staan om alle data over Corona van alle landen en regio's in de wereld met elkaar te kunnen vergelijken.

Voor wie heb je dat gedaan en waarom?
Deel van het werk is uit eigen belangstelling. Een deel is voor diverse media die o.b.v. data een item willen toelichten (bv over klimaat, terrorisme, Corona). Voor DUIC maak ik met wat anderen met enige regelmatig items specifiek over Utrecht op basis van open data. Onder andere over bezetting fietsenstallingen, horizon "vervuiling", impact afsluiten binnenstad voor bepaald verkeer, etc...


Soms doe ik werk voor politieke partijen of maatschappelijke organisaties die een bepaald onderwerp onderbouwd willen zien met data.
Maar ik heb ook eens heel veel data-uitzoekwerk gedaan voor het Zuiderzeemuseum en de schrijfster, Eva Vriend, van een boek over de veranderingen rond de Zuiderzee na afsluiting door de afsluitdijk (demografisch, economisch, cultureel, religie)

 

Welk probleem los je daarmee op?
Heel veel verschillende kleine problemen eigenlijk. Of misschien nog beter, het voorkomt het in de problemen komen. Goed inzicht op basis van (actuele) data is de basis voor goed kunnen sturen en goed kunnen duiden.

 

Welke data gebruik je daarvoor?

Heel veel verschillende open data. Via data.overheid.nl, maar ook nog steeds bij specifieke overheidsorganisaties zelf, bijvoorbeeld om bepaalde specifieke data of meer informatie op te halen. Ik hoop die in de toekomst ook te vinden in de grote data.overheid.nl bak.


Elk project kent ook uitdagingen. Waar liep jij tegenaan?
Even gekeken naar alle verschillende projecten zaten de grootste uitdagingen in het goed interpreteren van de data (wat betekenen de kolommen, hoe is de data tot stand gekomen, wat zijn de aannames die in de data zitten,...), de actualiteit van de data (steeds net niet het laatste jaar er in) en de kwaliteit van de data (niet ingevulde velden, verschillende coderingen in de tijd, gaten in tijdsreeksen).

Als je terugkijkt: wat is dan anders gelopen dan je dacht?
Nou, als ik inmiddels iets geleerd heb met data-trajecten is dat het nooit loopt zoals ik denk :-). Ik ben wel blij dat er in de loop der jaren wel heel veel vooruitgang is geboekt op dit vlak. Het gaat me nooit hard genoeg. Maar er is toch al meer dan ik inmiddels kan gebruiken!

Wat is je persoonlijke band met het onderwerp?
Zelf zie ik open data naast als nuttige bron toch ook als cruciaal voor een transparante staatshuishouding. En ik zet me dan ook af en toe met veel energie in om met name de data die hoort bij het democratische proces zo makkelijk en breed mogelijk toegankelijk te krijgen. 

What's next? Wat staat er op de planning op het gebied van data?
Waar ik nu naar aan het kijken ben is meer bijna real-time data over onze directe leefomgeving, zoals bijvoorbeeld over luchtkwaliteit. Om dat beter te gaan benutten. Bijvoorbeeld door data van moderne satellieten te gebruiken of data uit het groeiende IoT netwerk.

Meer informatie
Voor meer informatie over Datagraver ga je naar: 
datagraver.com.

Meepraten over de impact van data? 
Word gratis lid van onze data communities, binnen 1 minuut heb je een account aangemaakt en praat je mee op: https://forum.datacommunities.nl