Nationaal Archief (Ministerie van Onderwijs, Cultuur en Wetenschap)

'Googelen' door archieven? De instrumenten zijn in de maak

Er is veel meer mogelijk op het vlak van automatische tekstanalyse dan we denken. Op verschillende plekken zijn kansrijke instrumenten en technieken in de maak. Dat was de belangrijkste boodschap van de studiedag Googelen door archieven op 13 oktober, die werd georganiseerd door het Netwerk Oorlogsbronnen, het Nationaal Archief en Archief 2020.  

Volautomatische Archiefontsluiting

Veel collectiedata is een mix van handgeschreven en gedrukte informatie. Hoe maken we ook zulke heterogene data digitaal en makkelijk digitaal doorzoekbaar? Tijdens deze studiedag presenteerden Edwin Klijn (NOB) en Anne Gorter (Nationaal Archief) de resultaten van het BRAIN/Archief 2020-project Volautomatische archiefontsluiting. Onderzocht werd in hoeverre het zinvol is om Optical Character Recognition (OCR) en Named Entity Recognition (NER) in te zetten bij de nadere ontsluiting van gedigitaliseerd archiefmateriaal dat zowel volledig getypt/gedrukt is als deels handgeschreven. Uit het onderzoek bleken maar liefst 4 van de 5 woorden machineleesbaar te worden.

MONK, Transkribus en het Digital Humanities Lab

Daarnaast waren er presentaties van 2 kansrijke instrumenten voor automatische handschriftherkenning: het MONK-systeem en Transkribus. Het eerste instrument – het zelflerende systeem MONK - werd gedemonstreerd op 19e-eeuwse dagboeken. De demonstratie liet zien dat met MONK goede resultaten zijn te behalen als de machine getraind wordt in het herkennen van een specifiek handschrift. Transkribus is een langlopend Europees project, met als doel een digitale omgeving voor handschrift- en beeldherkenning te ontwikkelen waar resultaten van herkenning van heterogene collectiedata kunnen worden gedeeld. En wat doe je als archief en collectiedata eenmaal is gedigitaliseerd en machineleesbaar is gemaakt? José de Kruif (Digital Humanities Lab, Utrecht University) liet zien hoe archieven kunstmatige intelligentie kunnen inzetten voor de doorzoekbaarheid en vindbaarheid van machineleesbaar historisch bronnenmateriaal. 

Lees het uitgebreide verslag van de studiedag 'Googelen door archieven' of bekijk de korte impressie via YouTube.