Gezocht: slimme oplossing voor zoeken in miljoenen transcripties

3 september 2019

Het Nationaal Archief startte dit jaar een groot project met automatische handschriftherkenning. Hierin worden uiteindelijk twee miljoen handgeschreven archiefstukken getranscribeerd met machine learning. Om de transcripties nog toegankelijker en bruikbaarder te maken, zijn we nu samen met de Rijksdienst voor Ondernemend Nederland (RVO) op zoek naar slimme oplossingen, bijvoorbeeld met kunstmatige intelligentie (SBIR).

De eerste resultaten van het transcriberen met machine learning zijn positief. Het transcriptieteam van het Nationaal Archief heeft nu 2500 pagina’s van archieven uit de 17e, 18e en 19e eeuw getranscribeerd. Hiermee trainden we de machine zo goed dat slechts 6,15% van de karakters niet correct werd herkend. Momenteel werken we hard aan de laatste verbeteringen.

Nieuwe uitdagingen

Het succes van machine learning zorgt echter voor nieuwe uitdagingen. Bij het full-text doorzoeken van de transcriptiedata krijgt de onderzoeker een oerwoud aan resultaten te verwerken. Dat maakt het vinden van de juiste informatie niet eenvoudig. Daarnaast hebben we te maken met transcriptiefouten, spellingsvarianten, oude taal en fouten in de herkenning van de lay-out.

Aanbesteding

Om deze uitdagingen het hoofd te bieden, willen we een slimme functionaliteit laten bouwen voor het zoeken in de transcripties en het tonen van de resultaten. We hebben gekozen voor een aanbesteding in de vorm van een competitie. Na een offertetraject krijgen drie leveranciers budget om een prototype te ontwikkelen. Het beste prototype wordt vervolgens doorontwikkeld.

Meer weten over de aanbesteding? Kijk op de website van de RVO.

Over het project

In het innovatieve project ‘De ijsberg zichtbaar maken’ transcriberen we met behulp van machine learning scans van historische handgeschreven documenten. We selecteerden hiervoor één miljoen scans van het archief van de Verenigde Oost-Indische Compagnie (VOC) uit de 17e en 18e eeuw van het Nationaal Archief. Van de regionaal historische centra (RHC's) selecteerden we één miljoen scans van notariële archieven uit de 19e eeuw. Voor de uitvoering wordt samengewerkt met het programma Transkribus, onderdeel van het door de Europese Unie gesubsidieerde project READ (Recognition and Enrichment of Archival Documents).