Een archief doorzoeken gaat nu in seconden, in plaats van jaren

Een schat aan nieuwe data voor onderzoekers
screenshot transcriptie archief oud WIC
3 februari 2021

Gerhard de Kok, universitair docent koloniale geschiedenis aan de universiteit Leiden, vertelt over de interessante vondsten in automatisch getranscribeerde archiefstukken.

Onderzoek in datasets

Het Nationaal Archief transcribeerde archieven zoals de Verenigde Oost-Indische compagnie (VOC), de West-Indische Compagnie (WIC), de Sociëteiten van Suriname en Berbice met automatische handschriftherkenning. In totaal gaat het om 3 miljoen transcripties, een resultaat van het project De IJsberg zichtbaar maken. Gerhard de Kok besloot een kijkje te nemen in de datasets van de WIC en de Sociëteit van Suriname die het Nationaal Archief online had gezet. “Ik heb eerder onderzoek gedaan naar een groep piraten die de West-Afrikaanse kust in de 18e eeuw onveilig maakte. Ik wilde graag weten of ik misschien dingen had gemist.” De uitkomst was verrassend.

Nieuwe gegevens

De transcripties zijn nog niet perfect maar zeker goed genoeg om te gebruiken, is de ervaring van Gerhard de Kok. Om het zoeken in die enorme berg aan gegevens makkelijker te maken ontwikkelde De Kok een interface, een kleine zoekmachine, die bovendien spellingvariaties meeneemt. “De zoekresultaten leverden heel veel mooie nieuwe gegevens op”, vertelt De Kok enthousiast. Hij wist dat de WIC een door piraten ingepikt schip heroverde en in gebruik nam. Wat hij niet wist en wat hij in de transcripties vond was dat de oorspronkelijke Franse eigenaren bij de WIC een verzoek indienden om hun schip terug te krijgen. “Dat was een hele mooie aanvulling op mijn eerdere onderzoek.”

Nog meer vondsten

Ook vond De Kok in de getranscribeerde data loongegevens van werknemers van de WIC die mee hadden geholpen bij het heroveren van het Franse schip. Ook dat was hij in zijn analoog onderzoek niet tegengekomen. Verder vond hij nieuwe gegevens over de behandeling van Afrikanen in het fort van Elmina waar zij als slaafgemaakten werden vastgehouden. Dankzij het nieuwe systeem van automatische transcripties kon hij de nieuwe gegevens snel classificeren en rubriceren.

Nieuwe onderzoeksmogelijkheden

Het grote verschil met analoog zoeken in archiefstukken is dat met de automatische transcripties en een zoekmachine het mogelijk is een heel archief te bekijken: “Iets wat anders jaren zou kosten, kan nu in seconden. Hierdoor komen er veel nieuwe gegevens naar boven die je anders niet zou hebben gevonden.” Het betekent volgens De Kok overigens niet dat het handmatige, ambachtelijke archiefonderzoek verleden tijd is. Je moet als onderzoeker weten hoe een archief in elkaar zit en waar je relevante informatie kunt verwachten. De nieuwe technieken zijn volgens hem een prachtige aanvulling waarmee fantastische resultaten zijn te behalen. Universiteiten zullen studenten dan ook vertrouwd moeten gaan maken met oude én nieuwe onderzoeksmethoden.

Wat kan er nog meer met deze nieuwe data?

Naast de mogelijkheden van aanvullend onderzoek zijn er volgens de Kok ook nieuwe types van onderzoek mogelijk, bijvoorbeeld kwantitatief onderzoek. Ook hierbij nam De Kok de proef op de som. Hij wilde graag weten hoe vaak de Heren X, het bestuur van de WIC, tussen 1700 en 1790 vergaderden over verschillende Nederlandse koloniën en hoe zich dat ontwikkelde in die periode. Handmatig is dit soort onderzoek nauwelijks te doen. De namen van de verschillende koloniën werden in die periode meer dan 10.000 keer in de notulen genoemd.

Nieuw onderzoeksveld

Er zijn nog wel geavanceerdere onderzoeksmodellen nodig volgens De Kok want eigenlijk is er een nieuw onderzoeksveld ontstaan. “We kunnen gedigitaliseerde en getranscribeerde archieven met nieuwe vragen en nieuwe methodes doorzoeken.” In de zoektocht naar nieuwe onderzoeksmethodes zoekt hij samenwerking met historici en wetenschappers in andere disciplines.

Toekomstige ontwikkelingen

De Kok hoopt dat er nog veel ontwikkelingen zullen volgen op het gebied van machine learning. Wanneer een computer ook kan “zien” wanneer een bepaalde brief is geschreven of waar vandaan dan zou je nog veel gerichter kunnen zoeken. “Het zou bijvoorbeeld fantastisch zijn als ik kon selecteren op brieven die vanuit een bepaald Nederlands fort in Afrika naar Elmina zijn gestuurd.” De Kok kan dit goed gebruiken in zijn onderzoek naar de praktijk van schuldslavernij in West-Afrika. Hij wil onder meer gaan kijken of en wanneer dit bij bepaalde forten vaker voorkwam. Zonder automatische handschriftherkenning is dit moeilijk te achterhalen.

De Kok noemt ook het gebruik linked data, waardoor informatie uit verschillende archieven en datasets aan elkaar gekoppeld kunnen worden, als een van de mogelijkheden die erg zouden helpen bij het doen van onderzoek. Nieuwe technieken moeten ook de enorme hoeveelheid van deze big data hanteerbaar maken om er nuttige trends en aspecten uit te kunnen halen.

Het Nationaal Archief bevindt zich aan het forefront van de ontwikkelingen, aldus De Kok. Hij kijkt uit naar de lancering van de projectwebsite van het Nationaal Archief in mei waarmee vele transcripties op grote schaal doorzoekbaar worden. Er breekt een geheel nieuwe tijd van historisch onderzoek aan.

Symposium en onderzoekswedstrijd

Op 17 mei 2021 organiseert het Nationaal Archief een (online) symposium over de resultaten van het project De IJsberg zichtbaar maken. Tijdens dit symposium wordt onder meer de Innovatie in Archiefonderzoek-prijs uitgereikt. Informatie over het symposium volgt.