Alle open data termen op een rij

Overzichtspagina met begrippen 

Op het Nationale dataportaal worden verschillende begrippen en termen gebruikt. Hier treft u een uitleg bij deze begrippen aan.

Mocht u een begrip missen of heeft u een vraag over een bepaalde term of begrip, neem dan gerust contact met ons op via data@koop.overheid.nl.

Referentie datasets

Overheidsorganisaties in Nederland stellen diverse datasets beschikbaar als open data. Deze datasets worden vrij beschikbaar gesteld om te gebruiken. Uit een pilot van het CBS en het Kadaster is onder andere naar voren gekomen dat gebruikers een aantal datasets veel gebruiken als “referentie” om andere data te gebruiken. Met een referentie wordt vaak een verwijzing bedoeld naar een bron die meer informatie kan verschaffen over een bepaalde situatie of bewering. Referentiegegevens zijn over het algemeen uniform met doorgaans weinig mutaties en kunnen bestaan uit waarden of statussen.

Binnen de overheid zijn er datasets die essentieel zijn voor het bevorderen van gebruik van data van de overheid. Deze datasets vormen zogenoemde ‘ankerpunten’ voor het gebruik van data. Deze datasets worden dan ook wel referentiedatasets genoemd. De lijsten met inwonersaantallen, indexcijfers van CBS, vastgoed dashboard van het Kadaster of overheidsorganisaties vanuit KOOP zijn voorbeelden van dit soort referentiegegevens. De referentiedatasets worden prominent ontsloten op data.overheid.nl. De gebruiker kan op deze wijze beter worden ondersteund in het gebruik en toepassen van overheidsdata. Een stimulans voor gebruik wordt hiermee beoogd.

High value datasets

Het kabinet heeft de ambitie om zoveel mogelijk overheidsgegevens als open data beschikbaar te stellen. Daarbij geeft het kabinet prioriteit aan 'high value'-datasets. Dit zijn datasets met hoge waarde voor de samenleving, zoals de Basisregistratie Adressen Gebouwen en de kadastrale kaart. Bij het beschikbaar stellen van data wordt prioriteit gegeven aan de ontsluiting van deze datasets. In 2016 heeft data.overheid.nl in samenwerking met gemeenten, de Digitale Stedenagenda en VNG/KING een Gemeentelijke High Value Lijst opgesteld. Deze lijst is voor gemeenten een startpunt om te beginnen met het openen van datasets.

Tevens zijn de provincies in 2019 gekomen tot een Provinciale High Value lijst. 

Lees hier verder.

DCAT

Om datasets overzichtelijk te kunnen presenteren en om gericht naar datasets te kunnen zoeken, worden datasets in data.overheid.nl beschreven met metadata. Het W3C heeft hiervoor DCAT ontwikkeld, een metadatastandaard voor de beschrijving van datasets. Lees meer over DCAT van W3C.

DCAT-standaard Europese Unie

Vanuit de Europese Unie is er een toepassingprofiel van DCAT opgesteld. Het Nederlandse toepassingsprofiel van DCAT is gebaseerd op versie 1.1 van het EU-profiel (meer over DCAT-AP-EU 1.1 van de EU). Er wordt continu gewerkt aan een update van het DCAT-AP-EU. Daarin wordt onder andere ook de mapping naar ISO 19115, de metadatastandaard voor geo-datasets, meegenomen. Volg de ontwikkelingen van DCAT-AP-EU.

DCAT-standaard Nederland

De Nederlandse overheid heeft het DCAT-AP-EU vertaald naar een Nederlands profiel. Dit wordt ook wel het IPM voor datasets genoemd. Het IPM voor datasets is de specificatie van de metadata die de Nederlandse overheid gebruikt voor de uitwisseling van metadata over datasets tussen datacatalogi. Lees meer over de vormen die bestaan rondom DCAT, het IPM voor Datasets is hier te vinden.

Bestandsformaten open data

Bij het aanmelden van een dataset op data.overheid.nl kunt u kiezen uit diverse bestandsformaten. Deze bestandsformaten zijn geselecteerd aan de hand van het DCAT-NL model. In de tabel hieronder zijn alle 13 formaten uitgelegd.

FORMAAT Uitleg
Atom  XML-gebaseerde formaat datvergelijkbaar is met .rss. Het is ontworpen om een universele standaard te zijn voor persoonlijke content en weblogs.
JSON Dit standaard formaat wordt gebruikt voor het opslaan van eenvoudige data en objecten. De tekst is te lezen voor mensen en is gebaseerd op de javascript.; 
MS Word  
PDF PDF-bestanden kunnen tekst, afbeeldingen, vormen, annotaties, contouren, en andere gegevens bevatten. 
RDF RDF formaat wordt veelal gebruik voor visualisatie en ruimtelijke analyse.
SOAP  
Excel  
zip Een zip is een map met daarin meerdere documenten.
CSV Bestand met data dat gescheiden wordt door komma's. CSVwordt vaak gebruikt om gegevens te wisselen.
HTML HTML is een Webpagina die weergeeft wordt in een webbrowser. De HTML-broncode wordt ontleed door de webbrowser en wordt meestal niet gezien door de gebruiker.
N3  
Turtle  
XML  XMLgegevensbestand dat labels gebruikt om objecten en objectkenmerken te definiëren; geformatteerd net als een HTML. XMLbestanden standaard manier van opslag en overdracht van gegevens tussen programma en via het internet. Omdat ze zijn opgemaakt als tekst documenten, kunnen ze worden bewerkt door een eenvoudige tekstverwerker.

Daarnaast gebruikt data.overheid.nl nog een ander formaat, de shapefile. De shapefile is formeel geen open data formaat. Maar er is voor gekozen om dit formaat als open data te zien, omdat het formaat veel wordt gebruikt door overheidsorganisaties. 

FORMAAT Link
Shapefile  Link

Licenties voor hergebruik

Wanneer u een dataset registreert op data.overheid.nl bent u verplicht om een licentie te koppelen aan een dataset. Een licentie bepaalt de mate van hergebruik van een dataset. In de tabel hieronder staan de licenties die gebruikt worden op data.overheid.nl. Bij elke licentie is aangegeven of er sprake is van "open data". Enkele licenties leggen beperkingen op aan de hergebruiker waardoor er geen sprake is van open data die zonder beperking kan worden hergebruikt. 

Gesloten datasets

Sommige datasets op data.overheid.nl zijn 'gesloten'. Dit betekent dat de dataset niet voor publiek hergebruik beschikbaar is of komt. Als een dataset 'gesloten' is, moet ook duidelijk zijn waarom een dataset niet beschikbaar is of beschikbaar zal komen. Lees hier verder.

Linked data sterren

Om aan te tonen hoe bruikbaar een dataset is, maakt data.overheid.nl gebruik van de Linked data sterren van Tim Berners Lee. Volgens de Linked-data sterren classificering zijn er vijf rangen in de mate van openheid van een dataset. Hoe hoger het aantal sterren, hoe beter de kwaliteit en de openheid van een dataset. Het sterrensysteem wordt in Engeland gebruikt om overheidsorganisaties te stimuleren om zo 'open' mogelijk te zijn. 

AANTAL STERREN INHOUD VOORBEELD
1 ster Beschikbaar op het web, met een open licentie PDF
2 sterren Data  is machine leesbaar en bevat een open licentie Excel
3 sterren De dataset is beschikbaar in een open bestandsformaat CSV
4 sterren Bovenstaande + gebruik open standaarden van het W3C (RDF en SPARQL) om objecten in de data te identificeren, zodat anderen naar die objecten kunnen verwijzen.  RDF
5 sterren Bovenstaande + link je data aan data van anderen, om meer context te verstrekken.  RDF

Dataset en databron

De termen "dataset" en "databron" worden op data.overheid.nl gebruikt om een verzameling van data aan te duiden. Er bestaat geen vastgestelde definitie van deze begrippen. Onderstaande definitie is zoals data.overheid.nl deze hanteert. 

  • Dataset: een beschrijving van een verzameling van data van een data-eigenaar. Dit kan bijvoorbeeld één tabel met data zijn of een verzameling van tabellen met samenhangende data, bijvoorbeeld alle tabellen per jaar over de periode 2005-2016.  
  • Databron: een verwijzing naar de daadwerkelijke vindplaats van data die in de dataset wordt benoemd. Een dataset bevat één of meer databronnen. In het voorbeeld is er één databron in de vorm van één tabel met data of meerdere  databronnen overeenkomend met het aantal tabellen per jaar.   

Hierbij gelden de volgende vuistregels: 

  • Een dataset wordt gevormd door een beschrijving en metadata. Er zijn een aantal verplichte velden (afgedwongen door de DCAT standaard) en optionele velden. De dataset beschrijft de inhoud van de onderliggende databronnen.
  • Een dataset wordt door de data-eigenaar zo samengesteld dat de optimale samenstelling van beschrijving en databronnen biedt voor hergebruik. De data-eigenaar bepaalt. 
  • Een dataset bevat tenminste één databron en mogelijk meer databronnen. Een databron kan voorkomen in meerdere datasets indien de data-eigenaar dit handig vindt om hergebruik te stimuleren. Het dubbel verwijzen naar dezelfde databronnen moet zoveel mogelijk worden voorkomen en alleen worden gebruikt als dit niet anders kan.