Dataverzoek
- Titel:
- Hergebruik dataset kamerverslagen 1814-1995
- Aangevraagde data:
- De Twitter-robot @nieuwindekamer doorzoekt de handelingen van de Tweede Kamer op zoek naar nooit eerder (sinds 1995) uitgesproken woorden en wijdt daar een drie-dagelijks een tweet aan, zie ook https://nieuwindekamer.nl/.
Graag breiden we de kennis van @nieuwindekamer uit met de handelingen uit de periode 1814 tot 1995. Volgens de website van de Koninklijke Bibliotheek (https://www.kb.nl/bronnen-zoekwijzers/dataservices-en-apis/staten-generaal-digitaal) is deze dataset overgedragen aan KOOP.
Het gaat ons met name om de tekst (OCR in XML), niet om de afbeeldingen in hoge resolutie (JPEG). Voorbeeld van een van de gewenste bestanden https://repository.overheid.nl/frbr/sgd/19591960/0000265612/1/ocr/SGD_19591960_tekst_0004815.xml
Is er een mogelijkheid dat we deze dataset (dus alle OCR in XML bestanden) toegestuurd kunnen krijgen (bijv. als ZIP-bestand via wetransfer.com, het zal wel een paar GB zijn)? Of anders: kan er een lijst aangeleverd worden met alle ocr-xml bestanden in de Staten-Generaal Digitaal Repository (zodat wij deze bestanden kunnen harvesten)?
- Aangevraagde formaat:
- XML