Linked Open Data

Het Nationaal Archief stelt zijn open data ook als linked open data beschikbaar. Maar wat is linked open data en hoe past het Nationaal Archief het toe?

Verbeelding van linked open data

Bij linked open data (LOD) wordt data op zo’n manier aangeboden dat er veel makkelijker en automatisch verbinding gelegd kan worden met andere data. Hierdoor wordt de data rijker en nuttiger voor de gebruiker. Om LOD te kunnen begrijpen worden eerst de principes van het semantisch web uitgelegd.

Het semantisch web

Tim Berners-Lee, bedenker en grondlegger van het wereldwijde web (www), sprak over de term ‘het semantisch web’. Het semantisch web is een web van informatie waarin kleine brokjes kennis met elkaar verbonden zijn: linked open data (LOD). Het grote voordeel van het semantisch web is dat het bestaat uit machine-leesbare informatie. Hierdoor kunnen computers automatisch verbanden leggen tussen data en datasets. Om te komen tot data die te linken is heeft Tim Berners-Lee het 5 sterren classificatiemodel van open data opgesteld. 

Classificatie van open data

  • publiceer open data op het internet. (*)
  • publiceer de open data zo integer mogelijk (zorg dat het herbruikbaar is). (**)
  • gebruik zoveel mogelijk (open) standaarden. (***)
  • gebruik URI’s, RDF en Sparql zodat er van buiten naar de data verwezen kan worden. (****)
  • verrijk de context (metadata) van de data door te verwijzen naar andere data. (*****)
Visualisatie 5 sterren classificatiemodel van open data van Tim Berners-Lee

Tim Berners-Lee beschrijft verder vier ontwerpprincipes voor linked (open) data.

  • Gebruik URI's als namen voor gegevens ('dingen').
  • Gebruik HTTP URI's zodat gebruikers deze kunnen opzoeken.
  • Als een gebruiker een URI opzoekt moet deze URI bruikbare informatie geven. Met de standaarden voor het uitwisselen van gegevens op het web zoals Resource Description Framework (RDF ofwel Tripels) en SPARQL.
  • Voeg links naar andere URI's toe zodat gebruikers meer gegevens kunnen vinden.

Triples  

De URI's worden in een triple gebruikt voor het maken van brokjes kennis. Een triple bestaat uit een subject, predicaat en object, ook wel het Resource Description Framework (RDF) genoemd. Hier volgen drie voorbeelden.

SubjectPredicaatObject
Herbert G. Pontingis geboren op21 maart 1870
Herbert G. Pontingis geboren inSalisbury
Herbert G. PontingschoolTrinity College

Voor de triple-onderdelen subject, predicaat en object gebruiken we termenlijsten of vocabulaires. Deze staan op internet. Vocabulaires bepalen de betekenis van een begrip. In ons voorbeeld is het predicaat ‘is geboren in’ gedefinieerd door http://dbpedia.org/ontology/birthPlace. De uitwerking van de triples met URI’s ziet er dan zo uit:

Triples met URI's
SubjectPredicaatObject
http://vocab.getty.edu/ulan/500001808https://schema.org/birthDate21 maart 1870
http://vocab.getty.edu/ulan/500001808//dbpedia.org/ontology/birthPlace//dbpedia.org/page/Salisbury
http://vocab.getty.edu/ulan/500001808//dbpedia.org/ontology/education//www.trinity-school.org/

Deze triples kunnen verder aan elkaar gekoppeld worden. Zo kan de term Salisbury gelinkt worden aan de term Groot-Brittannië. Hierdoor weet je dat Herbert G. Ponting daar geboren is. Door het aanbrengen van heel veel links ontstaat een web van data die met elkaar samenhangt; een semantisch web.