Terug naar overzicht

Terugkoppeling pilots 2021

Nieuws | Aangemaakt: 14-10-2021 | Aangepast: 14-10-2021

In het eerste half jaar van 2021 hebben we op data.overheid.nl pilots uitgevoerd om data beter vindbaarheid te maken. Samen met verschillende data-eigenaren hebben we getest hoe we de informatie over datasets kunnen verbeteren zodat gebruikers de data makkelijk terug kunnen vinden. 

We hebben op vier terreinen proeven gedaan: 

  1. Datakwaliteit. Hoe beschrijven we voor gebruikers wat de kwaliteit is van de metadata (juistheid, compleetheid, etc.) en de data zelf. 
     
  2. Dataschema's. Wat is de structuur en het onderliggende model van de dataset en welke overeenkomende velden of klassen worden in de data beschreven. 
     
  3. Begrippen (semantiek). Welke objecten beschrijft een dataset? Waar gaat de dataset precies over? 
     
  4. Condities voor delen. Wat zijn de beperkingen en condities voor het hergebruik van datasets die geen open data zijn, maar onder bepaalde voorwaarden wel hergebruikt kunnen worden. 

We hebben in de pilot gewerkt met een beperkt aantal data-aanbieders die op bovenstaande onderwerpen al bezig waren. 

Conclusies pilots

  1. Datakwaliteit. We constateren dat gebruikers drie elementen relevant vinden. Dit is informatie over de kwaliteit van de data zelf vanuit de data-aanbieder; feedback over ervaren kwaliteit van andere gebruikers en informatie over hoe FAIR de data is (de mate van vindbaarheid, toegankelijkheid, uitwisselbaarheid en herbruikbaarheid). We denken dat het mogelijk is om deze kwaliteitskenmerken toe te voegen aan datasets op data.overheid. Hierbij kunnen de FAIR kenmerken grotendeels berekend worden (zie EU dataportaal voor de methode). De informatie over kwaliteit van de data zal vanuit data-eigenaar of externe experts aangeleverd worden. De feedback van andere gebruikers zal data.overheid.nl zelf kunnen verzamelen. 
     
  2. Dataschema's. We constateren dat er al meer dan zes methodes in gebruik zijn om datastructuur en -modellen te beschrijven. Gelukkig zien we ook overeenkomsten in deze methodes; telkens wordt een begrip benoemd dat in de data wordt beschreven en vervolgens de gegevenselementen die in de data zitten om het begrip te beschrijven. Soms heten de begrippen "classes", "abstracts", "werkblad" of "feature". De gegevenselementen heten ook "attributen", "velden" of "kolommen". Het goede nieuws is dat we in de pilot vier verschillende methodes naar één methode konden vertalen. Hiermee kunnen we bij elke dataset een beschrijvingen van de datastructuur opnemen als deze door de data-eigenaar beschikbaar wordt gesteld. Daarnaast hebben we een praktische manier gevonden om de informatie over dataschema's op te nemen in DCAT als een distributie met het type "dataschema". 
     
  3. Begrippen. Begrippen beschrijven de objecten die in een specifieke datasets zijn opgenomen. Dit kunnen "lantaarnpalen", "aanlegsteigers" of "verkeerslichten" zijn. Om data makkelijk te kunnen vinden en te koppelen is het van belang dat iedereen dezelfde begrippen gebruikt. We voorkomen daarmee spraakverwarring. We hebben in de pilot onderzocht welke begrippen worden gebruikt door data-aanbieders. In de Stelselcatalogus vinden we een generieke lijst met begrippen die in de basisregistraties voorkomen. Bij specifieke domeinen als onderwijs, ruimtelijke omgeving of fiscaal vinden we "woordenboeken" die de data-eigenaren gebruiken om data te verrijken. We constateren dat het belangrijk is om als gebruiker te weten welke woordenboeken beschikbaar zijn en wie deze onderhoudt. Begrippen die data-aanbieders aan datasets koppelen zouden alleen uit deze woordenboeken moeten komen zodat eenduidigheid en de beste vindbaarheid en koppelbaarheid van data ontstaat. 
     
  4. Condities voor delen. We constateren dat dit onderwerp nog het minst leeft bij de data-aanbieders. Een aantal data-aanbieders heeft wel data die beperkingen voor hergebruik kent, maar vindt het moeilijk om de condities te beschrijven waaronder hergebruik wel zou kunnen plaatsvinden. De condities die wel worden genoemd zijn bijvoorbeeld "teken een disclaimer waarin waarschuwingen over de toepasbaarheid van de data staan", of "deze data mag alleen door andere gemeenten worden gebruikt" of "deze data kent leveringskosten". We hebben onderzocht hoe we condities kunnen beschrijven binnen data.overheid.nl. In ieder geval biedt DCAT een mogelijkheid om condities te beschrijven in de vorm van een "ODRL" statement. Hierin schuilt gelijk ook het probleem: ODRL en het beschrijven van condities is bijzonder complex. Dit komt omdat condities zowel voor mens als machine leesbaar moeten zijn, en ODRL een complexe codering is (voor de kenners: de taal is Turing complete). We constateren dat het vooral belangrijk is om data-eigenaren met behulp van bijvoorbeeld standaard "templates" te helpen om condities aan data toe te voegen. De template kan er daarna voor zorgen dat op de achtergrond de passende codering wordt gebruikt. Dit lijkt ook het meeste op de huidige aanpak van de creative commons voor open data. 

Resultaten pilots

In de pilots hebben we de volgende resultaten behaald: 

  1. De catalogus van de gemeente Eindhoven is gekoppeld aan data.overheid.nl. Dat was nog niet eerder gebeurd vanwege het verschil in software. Alle datasets van Eindhoven zijn vindbaar op data.overheid.nl. Daarnaast worden dataschema's die Eindhoven beschikbaar stelt, opgenomen bij de respectievelijke dataset. De schema's zijn doorzoekbaar op data.overheid.nl. 
     
  2. De "feature catalogue descriptions" van de Provincie Zuid Holland zijn vindbaar op data.overheid.nl. De FCD's zijn toegevoegd als dataschema aan de respectievelijke datasets van Zuid-Holland die al op data.overheid.nl te vinden waren. In de zoekbox kan nu op een veldnaam of begrip worden gezocht; de gebruiker vindt een dataset waarin dit begrip of veldnaam voorkomt. 
     
  3. De informatie over basisregistraties zoals begrippen, gegevenselementen wordt uit de Stelselcatalogus opgehaald en als dataschema beschikbaar gemaakt op data.overheid.nl. Op deze manier zijn alle velden in de basisregistraties doorzoekbaar voor gebruikers en kan een basisregistratie makkelijker worden gevonden. Als een gebruiker zoekt op "persoon" wordt bijvoorbeeld het Handelsregister en de BPR gevonden als dataset omdat in beiden het betreffende gegevenselement voorkomt.  

Nog niet gereed of nog in onderzoek

  • Data kwaliteit. De Provincie Zuid-Holland heeft een lijst gemaakt van data waar condities voor hergebruik gelden. Met de datasets had een proef met beschrijven van de condities uitgevoerd kunnen worden. Na nadere afweging bleek dat alle datasets beter als volledig open data ter beschikking konden worden gesteld. Er wordt nog gewerkt aan een nieuwe lijst met beperkte datasets.

Uiteraard blijven we updates delen over deze pilots en verbeteringen.