Handschriftherkenning

Wat is handschriftherkenning?

Archiefinstellingen beheren vele handgeschreven archieven. Maar wie kan die nog lezen? En zou je niet makkelijker willen zoeken in de scans van deze archieven. Het Nationaal Archief lost dit op met artificial intelligence (AI). We gebruiken machine learning om software te trainen handschriften automatisch te transcriberen. Oftewel om te zetten naar tekst die de machine kan lezen. Hiervoor voeden we de software met handgemaakte transcripties. Om het zoeken in de transcripties te verbeteren worden persoonsnamen en locaties in de teksten automatische gemarkeerd. Lees meer over handschriftherkenning op deze pagina.

Wat doet het Nationaal Archief met handschriftherkenning?

In 2019 startten we ons eerste grote project met handschriftherkenning De ijsberg zichtbaar maken. Het Nationaal Archief werkte samen met het Noord-Hollands Archief en andere regionaal historische centra aan automatische handschriftherkenning (htr). In het project De ijsberg zichtbaar maken transcribeerden we archieven van de VOC uit de 17e en 18e eeuw en archieven van notarissen uit de 19e eeuw. Voor het zoeken in de twee miljoen transcripties ontwikkelen we de tijdelijke projectwebsite www.zoekintranscripties.nl. Anderhalf miljoen transcripties en de trainingsdata zijn beschikbaar op Zenodo.

Oorlog voor de rechter

Het project De ijsberg zichtbaar maken liet ons zien hoe waardevol transcripties zijn bij het doen van archiefonderzoek. Ook in het project Oorlog voor de Rechter speelt tekstherkenning een belangrijke rol. In dat project transcriberen we 30 miljoen scans van het Centraal Archief Bijzonder Rechtspleging (CABR). In het CABR zitten dossiers over 425.000 mensen die werden verdacht van onder andere samenwerking met de Duitse bezetter tijdens de Tweede Wereldoorlog. In het project Oorlog voor de Rechter werken we samen met WO2Net, KNAW Humanities Cluster en het NIOD.

Met tekstherkenning willen we het mogelijk maken dat in de tekst van de documenten kan worden gezocht, bijvoorbeeld naar slachtoffers. Daarnaast kunnen we hierdoor de naam van een verdachte koppelen aan een dossier en bepalen wat voor documenttypen er in een dossier zitten.

Voor het transcriberen ontwikkelde het KNAW Humanities Cluster met hulp van het Nationaal Archief de transcriptie-software Loghi. De software is open source beschikbaar op de GitHub website van het knaw-huc. Het vereist meer dan gemiddelde IT-kennis om er mee te kunnen werken. Het Nationaal Archief en het KNAW Humanities Cluster blijven Loghi verder ontwikkelen. Om de scans van Oorlog voor de Rechter maar ook die van alle andere archieven van het Nationaal Archief te kunnen transcriberen, is de transcriptiesoftware geïntegreerd in de technische infrastructuur.

Contact

Liesbeth Keijser

Projectleider digitalisering 

Liesbeth Keijser
liesbeth.keijser@nationaalarchief.nl

Ik denk we een revolutie teweeg gaan brengen in archiefonderzoek.

Projectwebsite zoekintranscripties.nl

Voor het project De ijsberg zichtbaar maken lanceerde het Nationaal Archief in mei 2021 zoekintranscripties.nl. Op 1 april 2025 houdt de website op te bestaan.

Op deze website kunnen bezoekers handgeschreven bronnen bekijken en doorzoeken. Het snel doorzoeken van archiefstukken op zoekintranscripties.nl is mogelijk omdat handgeschreven bronnen met behulp van transcriptietechniek machineleesbaar zijn gemaakt, en zijn verrijkt met kunstmatige intelligentie.

Meer dan een miljoen transcripties kunnen worden doorzocht. Een deel daarvan is verrijkt met correcties, modernisaties en entiteiten. Het gaat om historische handgeschreven documenten van de Verenigde Oost-Indische Compagnie (VOC) uit de 17e en 18e eeuw van het Nationaal Archief en notariële archieven uit de 19e eeuw van het Noord-Hollands Archief en andere Regionaal Historische Centra.

Zoekintranscripties.nl is qua inhoud en gekozen techniek, waar mogelijk open source en bruikbaar voor andere erfgoedinstellingen. Robert Goené en Tom Dalenberg ontwikkelden de frontend en de zoekmachine van de website. Vitec (voorheen Picturae), Aincient en Sioux Technologies bouwden het transcriptiebeheerssysteem en verrijkten de transcripties met inzet van AI.

Documentatie