Voortzetting geslaagde pilot automatische handschriftherkenning

Noord-Hollands Archief en Nationaal Archief maken de ijsberg zichtbaar
Afbeelding van een ijsberg.
23 april 2019

Is het mogelijk om handgeschreven documenten full-text te doorzoeken met handschriftherkenningstechnieken (HTR)? Dat is de vraag die Noord-Hollands Archief en Nationaal Archief gezamenlijk in de pilot De ijsberg zichtbaar maken hebben onderzocht. Voor de uitvoering is samengewerkt met het programma Transkribus, onderdeel van het door de Europese Unie gesubsidieerde project READ (Recognition and Enrichment of Archival Documents). Vanwege de positieve uitkomsten is inmiddels een vervolgtraject gestart.

Een groot deel van de collectie van zowel Noord-Hollands Archief als het Nationaal Archief bestaat uit handgeschreven teksten. En van slechts een klein deel daarvan is de inhoud bekend. Het topje van de ijsberg dus. Hoe mooi is het om met HTR de rest van de teksten te kunnen doorzoeken en zo toegankelijker te maken voor het publiek. Dat willen we met het project bereiken. Daarnaast is het doel om de getrainde HTR-modellen beschikbaar te stellen aan andere erfgoedinstellingen en onderzoeksinstituten. 

Hoe werkt het?

Voordat je aan de slag gaat, bepaal je eerst met welk archief je gaat experimenteren. De keuze viel op de indexen van grote correspondentieseries. Indexen hebben namelijk een hoge informatiedichtheid en een uniforme structuur. De lay-out is vrijwel altijd identiek en er komen maar weinig verschillende handschriften voor. Hoe eenvormiger het materiaal, hoe makkelijker de computer geautomatiseerd goede transcripties maakt. Uit deze indexen zijn ongeveer 450 pagina’s handmatig getranscribeerd door een kleine groep toegewijde en enthousiaste vrijwilligers. Deze pagina’s zijn gebruikt om de software te trainen op het geselecteerde materiaal. Het hieruit ontstane HTR-model kan daarna worden toegepast op pagina’s waarvoor nog geen transcriptie aanwezig is.

Resultaten

We hoopten op een foutpercentage van rond de 10 procent op karakterniveau. Maar de eerste tests hadden een foutpercentage van rond de 20 procent. Dat kwam doordat de computer punten en komma’s verkeerd transcribeerde. En door de vele afkortingen en korte teksten in de documenten. Gelukkig beschikken we over software met een zelflerend vermogen. Door een verbeterde HTR-techniek zijn de foutenmarges inmiddels substantieel afgenomen. De computer transcribeert nu ruim 90 % van alle karakters correct. In de toekomst wordt dit alleen maar beter. Niet alleen door technologische ontwikkelingen, maar ook doordat veel Nederlandse instellingen samenwerken en datasets binnen Transkribus met elkaar delen. Simpelweg wordt de software steeds meer getraind met goede transcripties van documenten uit allerlei tijdsperioden en afkomstig van verschillende personen en organisaties. Een zeer hoopvolle ontwikkeling.

Vervolgproject 2019-2020

Door de positieve resultaten is de pilot in elk geval tot 2020 verlengd, en uitgebreid. De geleerde lessen worden hierin meegenomen. We kiezen in het vervolgtraject voor documenten met veel lopende tekst en weinig afkortingen, symbolen en tabellen. Daarnaast gaan we verder op een veel grotere schaal. De ambitie is om aan het eind van het project maar liefst twee miljoen handgeschreven pagina’s online tekstueel doorzoekbaar te maken. De focus ligt daarbij op het archief van de Verenigde Oost-Indische Compagnie (VOC) en de archieven van de notarissen uit de negentiende eeuw. We blijven de getrainde HTR-modellen beschikbaar stellen aan andere erfgoedinstellingen en onderzoeksinstituten.

Het online zoeken door handgeschreven documenten staat een ware revolutie te wachten. Alvast benieuwd in welke vorm dit straks zou kunnen? Neem een kijkje op deze webpagina. Hier zijn ongeveer 90.000 handgeschreven documenten van de Britse filosoof en jurist Jeremy Bentham op woordniveau doorzoekbaar.

Meer weten? Lees dan het uitgebreide artikel over de pilot De ijsberg zichtbaar maken op de website van het Noord-Hollands Archief.