Begrippenkader

Overzichtspagina met begrippen 

Op het Nationale dataportaal worden verschillende begrippen en termen gebruikt. Hieronder vind je een uitleg van deze begrippen.

Dataset en databron

De termen "dataset" en "databron" worden op data.overheid.nl gebruikt om een verzameling van data aan te duiden. Er bestaat geen vastgestelde definitie van deze begrippen. Onderstaande definitie is zoals data.overheid.nl deze hanteert. 

  • Dataset: een beschrijving van een verzameling van data van een data-eigenaar. Dit kan bijvoorbeeld één tabel met data zijn of een verzameling van tabellen met samenhangende data, bijvoorbeeld alle tabellen per jaar over de periode 2005-2016.  
  • Databron: een verwijzing naar de daadwerkelijke vindplaats van data die in de dataset wordt benoemd. Een dataset bevat één of meer databronnen. In het voorbeeld is er één databron in de vorm van één tabel met data of meerdere  databronnen overeenkomend met het aantal tabellen per jaar.   

Hierbij gelden de volgende vuistregels: 

  • Een dataset wordt gevormd door een beschrijving en metadata. Er zijn een aantal verplichte velden (afgedwongen door de DCAT standaard) en optionele velden. De dataset beschrijft de inhoud van de onderliggende databronnen.
  • Een dataset wordt door de data-eigenaar zo samengesteld dat de optimale samenstelling van beschrijving en databronnen biedt voor hergebruik. De data-eigenaar bepaalt. 
  • Een dataset bevat tenminste één databron en mogelijk meer databronnen. Een databron kan voorkomen in meerdere datasets indien de data-eigenaar dit handig vindt om hergebruik te stimuleren. Het dubbel verwijzen naar dezelfde databronnen moet zoveel mogelijk worden voorkomen en alleen worden gebruikt als dit niet anders kan. 

Referentie datasets

Overheidsorganisaties in Nederland stellen diverse datasets beschikbaar als open data. Deze datasets worden vrij beschikbaar gesteld om te gebruiken. Uit een pilot van het CBS en het Kadaster is onder andere naar voren gekomen dat gebruikers een aantal datasets veel gebruiken als “referentie” om andere data te gebruiken. Lees hier verder over referentie datasets

High value datasets

Het kabinet heeft de ambitie om zoveel mogelijk overheidsgegevens als open data beschikbaar te stellen. Daarbij geeft het kabinet prioriteit aan 'high value'-datasets. Dit zijn datasets met hoge waarde voor de samenleving, zoals de Basisregistratie Adressen Gebouwen en de kadastrale kaart. Bij het beschikbaar stellen van data wordt prioriteit gegeven aan de ontsluiting van deze datasets. In 2016 heeft data.overheid.nl in samenwerking met gemeenten, de Digitale Stedenagenda en VNG/KING een Gemeentelijke High Value Lijst opgesteld. Deze lijst is voor gemeenten een startpunt om te beginnen met het openen van datasets.

Tevens zijn de provincies in 2019 gekomen tot een Provinciale High Value lijst. 

Lees hier verder over high value datasets.

DCAT

Om datasets overzichtelijk te kunnen presenteren en om gericht naar datasets te kunnen zoeken, worden datasets in data.overheid.nl beschreven met metadata. Het W3C heeft hiervoor DCAT ontwikkeld, een metadata standaard voor de beschrijving van datasets. Lees hier verder over DCAT.

Bestandsformaten open data

Bij het aanmelden van een dataset op data.overheid.nl kun je kiezen uit diverse bestandsformaten. Deze bestandsformaten zijn geselecteerd aan de hand van het DCAT-NL model. Lees hier verder over dataformaten.

Licenties voor hergebruik

Wanneer je een dataset registreert op data.overheid.nl ben je verplicht om een licentie toe te kennen aan de dataset. In een licentie staat hoe een dataset hergebruikt mag worden. Lees hier verder over de verschillende licenties.

Gesloten datasets

Sommige datasets op data.overheid.nl zijn 'gesloten'. Dit betekent dat de dataset niet voor publiek hergebruik beschikbaar is of komt. Als een dataset 'gesloten' is, moet ook duidelijk zijn waarom een dataset niet beschikbaar is of beschikbaar zal komen. Lees hier verder over de redenen om een dataset gesloten te houden.

Linked data sterren

Om aan te tonen hoe bruikbaar een dataset is wordt soms gebruik gemaakt van de Linked data sterren van Tim Berners Lee. Volgens de Linked-data sterren classificering zijn er vijf rangen in de mate van openheid van een dataset. Hoe hoger het aantal sterren, hoe beter de kwaliteit en de openheid van een dataset. Het sterrensysteem wordt in Engeland gebruikt om overheidsorganisaties te stimuleren om zo 'open' mogelijk te zijn. 

AANTAL STERREN

INHOUD

VOORBEELD

1 ster

Beschikbaar op het web, met een open licentie

PDF

2 sterren

Data is machine leesbaar en bevat een open licentie

Excel

3 sterren

De dataset is beschikbaar in een open bestandsformaat

CSV

4 sterren

Bovenstaande + gebruik open standaarden van het W3C (RDF en SPARQL) om objecten in de data te identificeren, zodat anderen naar die objecten kunnen verwijzen. 

RDF

5 sterren

Bovenstaande + link je data aan data van anderen, om meer context te verstrekken.

 RDF