Impact story: AgroDataCube

We wilden diverse open data op het gebied van landbouw, overzichtelijk samenbrengen op één plek. Dit is gelukt met het ontwikkelen van de toepassing AgroDataCube. De data moet continu geüpdatet worden omdat de data zo recent mogelijk te houden. Deze toepassing is eigenlijk nooit af maar we zijn blij met waar we nu staan. We vroegen de ontwikkelaars van AgroDataCube naar het proces en de ontwikkeling van de totstandkoming van AgroDataCube.

Kun je jezelf even kort voorstellen? Wie ben je en waar werk je?

Yke van Randen: ik houd me vooral bezig met de technische kant van AgroDataCube. Daaronder valt bijvoorbeeld het toevoegen van nieuwe data lagen, het uitbreiden van de interface. 

Rob Knapen: ik werk bij Wageningen Environmental Research, ik houd me naast AgroDataCube bezig met software ontwikkeling, dataverwerking, computer modellen,  en data science. Afhankelijk van wat nodig is voor de projecten die we draaien. 

Rob Lokers: we zitten allemaal in hetzelfde team en ik werk als projectleider aan projecten die gaan over ICT en data. Veel van mijn projecten hebben een link met de AgroDataCube, b.v. omdat organisaties hier gebruik van maken. Ik zit niet zelf aan de knoppen maar heb er wel veel mee te maken.

Sander Janssen: ik bent teamleider van de groep, ik ben o.a. veel in gesprek met bedrijven en opdrachtgevers.

Aan welke toepassing hebben jullie gewerkt?

Het idee om AgroDataCube te ontwikkelen had er destijds mee te maken dat er haast geen bruikbare (open) databestanden over landbouw waren. Veel organisaties vonden het lastig om desbetreffende data bij elkaar te krijgen. Er was niemand die de stap maakte om het samenbrengen van de data concreet te maken. We wilden dit op een goed bruikbare manier bij elkaar brengen. Rob (Knapen) en Yke zijn gestart om dit uit te denken en hoe we dit het beste uit konden werken. We hebben gesprekken gevoerd met dataleveranciers maar ook bedrijven en onderzoekers die het zouden kunnen afnemen. We zijn verschillende toepassingen op het spoor gekomen, en de meesten zijn op het landbouwperceel gebaseerd. Om hier een beetje een beeld bij te geven: ik heb een landbouwperceel en hier wil ik iets weten over de bodem, de toestand van het gewas etc. Zo is het eigenlijk gestart. Eigenlijk is dit product nooit echt af, er komt elk jaar o.a. nieuwe perceelinformatie en weersinformatie bij, wat dat betreft is het een kwestie van up-to-date houden. Regelmatig komt ook nieuwe kennis beschikbaar, bijvoorbeeld nieuwe soorten data. Wij overwegen dan om deze toe te voegen, zodat iedereen daar gebruik van kan maken. 

Voor wie heb je dat gedaan en waarom?

Er was niet een specifieke doelgroep, we zagen vrij breed dat het probleem er was. Toen zijn we met meerdere mensen gaan praten, op basis daarvan is dit ontwikkeld en nu halen allerlei mensen hier data uit. Bijvoorbeeld provincies, waterschappen en RVO. Dit hadden we van tevoren niet bedacht. We hadden wel gesproken met mogelijke afnemers maar later zijn er meerdere gebruikers uit voort gekomen. We hebben door ons werk in Europese projecten gemerkt dat zulke landbouw data in andere landen nog niet op deze manier bij elkaar wordt gebracht en ontsloten: redelijk eenvoudig en op perceelbasis, waarbij alle informatie goed op elkaar is afgestemd.

Welk probleem los je daarmee op?

Dat alle data nu op één plek beschikbaar is en dat de data voor meerdere doeleinden te gebruiken is. Je wordt daarbij gedwongen alles meer te standaardiseren. Bijvoorbeeld de gewassenlijst (die RVO hanteert), deze is niet gestandaardiseerd, en coderingen veranderen per jaar. Door dit soort zaken merken we dat de data die her en der beschikbaar wordt gemaakt wel bruikbaar is maar niet altijd even gebruiksvriendelijk. We zoeken dan uit wat de achtergrond is van de data en hoe die op de juiste manier gekoppeld kan worden met de andere data in de AgroDataCube. De meerwaarde zit er dan in dat datagebruikers dat arbeidsintensieve proces niet meer hoeven te doorlopen. 

Wat betekent deze toepassing voor de gebruiker?

Voornamelijk gebruiksgemak. Je hebt sneller meer gevalideerde data tot je beschikking, die ook nog een keer op een bruikbare manier aan elkaar is gekoppeld. Obstakels als fragmentatie en gebrek aan standaardisatie zorgen ervoor dat gebruikers veel tijd en geld kwijt zijn om de juiste data te verzamelen en combineren. Dit is een bekend probleem binnen Data Science. Het scheelt ook dat niet iedereen andere interpretaties of aannames doet over data. Het is één keer uitgezocht en vervolgens kun je ervanuit gaan dat je hierop kunt vertrouwen. Veel gebruikers kunnen er gebruik van maken zoals het nu is, en ze kunnen ervan uitgaan dat de toepassing alleen maar beter wordt.

Wat is er veranderd voor je gebruikers sinds ze deze toepassing hebben?

Het grootste verschil is dat alle data nu overzichtelijk op één plek staat, in een context waarin die vaak gebruik wordt, namelijk gekoppeld aan landbouwpercelen of gewaspercelen. De beschikbare data kan voor meerdere doelen worden gebruikt en we verbeteren de toepassing continu waardoor data up-to-date blijft en er steeds meer data beschikbaar komt. 

Welke data gebruik je hiervoor?

De percelen van de basisregistratie (2009 – 2020), satellietdata en daarvan afgeleide gewas en management indicatoren, een aantal versies van de bodemkaart, de grondwatertrappen kaart, weerdata, postcodegebieden, gemeentegrenzen, provincies. En wat leuk is, je hebt dus ook de historie van de gewassen op een bepaald perceel, en aan de hand daarvan kun je indexen berekenen, zoals over gewasrotaties de kwaliteit van je bodem. 

Elk project kent ook uitdagingen. Waar liepen jullie tegenaan?

Wat je vaak ziet is dat we een databestand krijgen zonder informatie over wat erin zit, wat de eenheden zijn, kortom, de duiding en de beschrijving van de inhoud (metadata) van de data ontbrak nogal eens. Vaak is het lastig om dit af te leiden. Zo is het vaak is niet aangegeven wat bepaalde attributen betekenen, en je weet dan dus ook niet wat je er precies mee kan. Soms krijgen we een bijbehorend rapport, maar met je daarin inwerken ben je ook veel tijd kwijt. Je moet zoeken naar het nut van bepaalde data. 
Het is een proces dat continue doorgroeit, medio 2016 zijn we gestart met een project wat de aanleiding voor AgroDataCube was. De eerste deadline zal eind 2016 zijn geweest en deze hebben we wel gehaald met een minimale dataset.

Wat is je persoonlijke band met het onderwerp?

Yke: ik vind het leuk om met grote hoeveelheden data te werken en software te maken die het voor gebruikers makkelijker maakt om deze data vervolgens op een tamelijk vriendelijke manier te ontsluiten. De techniek vooral.

Rob Knapen: ik ben altijd benieuwd, als iemand makkelijk toegang krijgt tot al deze informatie wat mensen daar dan mee doen. Ik hoop dan op bijvoorbeeld innovatieve data science toepassingen of handige apps. Je ziet al wel dat onze studenten het steeds vaker toepassen, de gecombineerde data is interessant voor allerlei machine learning en AI experimenten. En het bespaart hun de tijdrovende klus van het opzoeken en zelf combineren van alle datasets. 

Rob Lokers: voor mij is het belangrijk om te weten dat mensen uiteindelijk iets met deze datatoepassing gaan doen. Het wil nog wel eens gebeuren dat een project op de plank belandt, dat is hier niet zo. En het is iets wat op andere plekken niet bestaat, een innovatie, dat geeft wel voldoening. 

Sander: ik sluit me aan bij wat al is gezegd, ik vind het belangrijk dat data ook echt gebruikt wordt. Daarnaast doen we graag dingen op een open manier. Mensen kunnen er echt gebruik van maken, dan zie je het beste het gebruik ontstaan en dat is leuk, zo hopen wij ons steentje bij te dragen aan het dataprobleem in de landbouwsector. 

Wat staat er verder op de planning op het gebied van data?

Wat leuk is, is dat we werken aan de openbodemindex.nl. Dit is een initiatief van de Nederlandse bodemcoalitie. Hier gebruiken we de data uit de AgroDataCube, je kunt allerlei achtergronden daarin zien en Yke is nu mee bezig met het inrichten van de achterkant hiervan. Zo hopen we dit weer een stap verder te brengen.

We hebben met de AgroDataCube nu een behoorlijk grote open dataset, wat ik interessant vind om te weten is hoe je dit op een slimme manier kunt combineren met gesloten data. Een boer heeft allerlei data, die geeft hij niet zomaar weg maar deze kun je als je dat goed regelt wel gebruiken samen met beschikbare open data. Dus daar zijn we mee bezig, hoe we dat slim voor elkaar kunnen krijgen. Zodat het wel goed bruikbaar is maar dat niet de privacy en het data ownership in gevaar komt. 

Satelliet beelden opvragen kan bijvoorbeeld ook, en daar werken we aan het ontsluiten van nog meer data en indicatoren afkomstig van meerdere satellieten. 

Ik ben bezig om alle data te gebruiken voor een gewassimulatiemodel, om te kijken of we de gewassimulaties op perceelniveau kunnen doorrekenen. Op jaarbasis zijn dit namelijk heel veel percelen in Nederland. We moeten kijken of dat kan en hoe dit op een snelle manier kan. Zodat je advies kunt geven over wat een boer zoal kan verbouwen op zijn perceel. 

Wat kan Data.Overheid.nl voor je betekenen? Waar heb je behoefte aan?

Ik denk het wel. Hoe meer mensen er gebruik van maken hoe leuker, als het heel veel wordt krijgen we vast uitdagingen met de huidige beschikbare verwerkingscapaciteit, maar het zou zondermeer voor het werkveld gunstig zijn als ze weten dat het bestaat en waar ze terecht kunnen als ze hier vragen over hebben. 

Als mensen na het lezen behoefte hebben aan meer informatie, waar kunnen ze dan terecht?

Je kunt terecht op de website, daar staat ook het algemene e-mailadres waarmee je ons kunt bereiken. Via: AgroDataCube V2 (wur.nl)

Meepraten over de impact van data?

Word gratis lid van onze data communities, binnen 1 minuut heb je een account aangemaakt en praat je mee op: www.datacommunities.nl