Unieke transcriptie-software nu open source beschikbaar

Transcriptie-software Loghi herkent tekstvormen
21 april 2023

Het ontcijferen van handschriften in archieven is vaak een flinke uitdaging. Om gescande historische documenten digitaal leesbaar en doorzoekbaar te maken ontwikkelde het KNAW Humanities Cluster de transcriptie-software Loghi. De software is per direct open source beschikbaar. Het Nationaal Archief en het KNAW Humanities Cluster blijven Loghi verder doorontwikkelen.

Ontcijferen handschriften: niet in jaren maar in minuten 

Het ontcijferen van zeventiende-eeuwse handschriften, of veel modernere, zoals uit de periode van de Tweede Wereldoorlog is tijdrovend en vaak moeilijk. Transcriptie-software maakt dit veel eenvoudiger door er een digitale tekst van te maken. Tegelijkertijd biedt die transcriptie ook nieuwe onderzoeksmogelijkheden, omdat gedigitaliseerde tekst doorzoekbaar is. Het vinden van alle vermeldingen van bijvoorbeeld ‘suiker’ in een archief van miljoenen archiefstukken kost slechts een paar minuten in plaats van vele jaren. Tel uit je winst. Maar dan moet de transcriptie-software wel betrouwbaar zijn.

Transcriptie-software Loghi

De transcriptie-software Loghi, zo bleek uit testen, is uitermate nauwkeurig en geeft tot wel 96% correcte transcripties van handgeschreven, getypte en gedrukte teksten. Hierdoor is Loghi geschikt voor erfgoedorganisaties die historische, slecht leesbare teksten beschikbaar en doorzoekbaar willen maken voor bezoekers en onderzoekers. De software is open source, wat betekent dat het beschikbaar is voor iedereen, maar ook dat het kan worden aangepast aan de eigen specifieke behoeften. Loghi is per direct voor iedereen toegankelijk op via de GitHub website. Op die manier kunnen ontwikkelaars er mee aan de slag en een bijdrage leveren aan het verbeteren van Loghi. De software is op dit moment nog niet gebruiksvriendelijk of makkelijk toepasbaar te noemen. Het vereist meer dan gemiddelde IT-kennis om er mee te kunnen werken.

Baseline

Loghi is in staat om uiteenlopende teksten te ontcijferen of het nu handgeschreven, getypt of gedrukt is. De software doet dat in twee stappen. Eerst stelt het vast op welke lijn een regel loopt, de zogenaamde baseline. Op die manier weet de software welke zinnen bij elkaar horen. Daarna zet Loghi het plaatje van de tekst om naar digitale tekst. Door deze twee stappen kan Loghi niet alleen rekening houden met aantekeningen in de kantlijn of tussen regels, maar ook met teksten die verticaal zijn geschreven in bijvoorbeeld tabellen. De software herkent al die verschillende vormen van tekst en geeft de digitale weergave daarvan in de juiste context weer.

Nog niet makkelijk toepasbaar

De Loghi-software is zeer geschikt voor archiefonderzoek maar vereist wel meer dan gemiddelde technische IT-kennis om toe te kunnen passen. Een alternatief en gebruiksvriendelijker programma is Transkribus dat in tegenstelling tot Loghi geen open source is en waarbij voor grotere hoeveelheden betaald moet worden.

Samenwerking KNAW Humanities Cluster en het Nationaal Archief

Het KNAW Humanities Cluster en het Nationaal Archief blijven Loghi verder ontwikkelen om gedigitaliseerde collecties van het Nationaal Archief leesbaar en doorzoekbaar te maken. Dat is nu vastgelegd in officiële samenwerking, waarin ook het Nationaal Archief een ontwikkelaar gaat aannemen. ‘We hebben al 50 miljoen documenten gescand en zullen de komende jaren nog eens 50 miljoen pagina’s digitaliseren. Door deze veelal handgeschreven en getypte documenten met Loghi machineleesbaar te maken, kunnen gebruikers de documenten veel gemakkelijker doorzoeken’, zegt Liesbeth Keijser, projectleider digitalisering bij het Nationaal Archief. In de komende jaren komen de getranscribeerde teksten online beschikbaar.