Succesvolle resultaten automatische handschriftherkenning

HTR-modellen klaar voor twee miljoen historische scans
Historische tekst uit VOC-archief in het programma Transkribus
4 februari 2020

Begin 2019 startte het Nationaal Archief een innovatief project om scans te kunnen transcriberen met automatische handschriftherkenning (Handwritten Text Recognition - HTR). Na bijna een jaar noeste arbeid is het voorwerk gedaan. De resultaten zijn boven verwachting. Meer dan 90% van de tekens wordt inmiddels correct herkend. We kunnen nu aan de slag om twee miljoen historische scans automatisch te transcriberen.

Om dit te bereiken zijn maar liefst 7.706 vaak moeilijk te lezen documenten uit VOC-archief (Nationaal Archief) en notarieel archief (Noord-Hollands Archief en overige regionale historische centra) met de hand ingetypt (getranscribeerd). En vervolgens ingezet voor het ontwikkelen en testen van verschillende HTR-modellen. Milo van de Pol, medewerker data entry bij het Nationaal Archief: “Eenvoudig gezegd hebben we de modellen geleerd om gescande handgeschreven teksten automatisch om te zetten in machineleesbare tekst. Zo veranderen de scans van een ‘plaatje’ in een doorzoekbaar document.”

Vrij te gebruiken

Voor het trainen is gebruikgemaakt van het programma Transkribus. Het team heeft met behulp van dat programma diverse HTR-modellen ontwikkeld, waaronder het zogeheten IJsberg-model. Dit model is gemaakt met transcripties van historisch archief van alle betrokken partijen. Het model is vrij beschikbaar in Transkribus, zodat iedereen het kan gebruiken om scans mee te transcriberen, of om in te zetten als basis voor een eigen trainingsmodel. De met de hand ingevoerde transcripties staan bovendien als open data op het Zenodo-platform.

Nieuwe uitdagingen: ontwikkelen online tool

Maar met dit geweldige resultaat zijn we er niet. Sterker nog, het creëert nieuwe uitdagingen. Liesbeth Keijser, projectleider Digitalisering bij het Nationaal Archief: “Full-text doorzoeken geeft enorm veel resultaten. Het vinden van de juiste informatie is dan niet eenvoudig. Daarnaast zijn er transcriptiefouten, spellingsvarianten, oude taal en fouten in de herkenning van de lay-out.”

Om dit op te lossen heeft het Nationaal Archief vorig jaar september een aanbesteding uitgezet bij drie softwareontwikkelaars, het KNAW Humanities Cluster (HuC), Picturae en Clean Code, voor het bouwen van een slimme functionaliteit die deze problemen het hoofd biedt. Dit moet het mogelijk maken om beter te zoeken in gedigitaliseerde transcripties. Binnenkort presenteren de drie partijen hun eerste softwareprototypes aan het Nationaal Archief.

Uiteindelijk resultaat

Vervolgens kiest het Nationaal Archief welk van de drie prototypes verder wordt uitgewerkt. Begin volgend jaar levert dit uiteindelijk een online tool op die moet helpen om in handschriften te zoeken op bijvoorbeeld personen, plaatsnamen en gebeurtenissen. Het Nationaal Archief wil hiermee een eind maken aan het langdurig en omslachtig zoeken in archieven.