Inleiding
Alles uitklappenEind 2022, begin 2023 heeft het Nationaal Archief een onderzoek uitgevoerd naar de mogelijkheden tot het archiveren van het publieksaccount op Twitter (nu X). Dit account werd in 2009 geopend en gebruikt voor het delen van nieuws relevant voor het brede publiek.
In 2015 kwam daar een zakelijk account bij. Om verwarring te voorkomen is in september 2021 besloten alle communicatie voortaan via het zakelijke account te laten verlopen. Het publieksaccount is vervolgens afgeschermd, maar niet opgeheven. Voordat het account daadwerkelijk kan worden opgeheven moet het eerst gearchiveerd worden.
Het Nationaal Archief besloot daarom een onderzoek te starten naar de verschillende technieken en tools. Ook het feit dat sociale-media-archivering een steeds urgenter onderwerp werd binnen de rijksoverheid speelde hierbij een rol. Het oorspronkelijke publieksaccount werd hiervoor als casus gebruikt.
Het onderzoek had een doorlooptijd van een half jaar en was opgedeeld in vier fasen:
A. Inventarisatie;
B. Analyse;
C. Evaluatie;
D. Terugkoppeling.
Een interdisciplinair team van deskundigen op het gebied van recordkeeping, preservation en digitaal verwerven kwam voor dit project samen.

A. Inventarisatie
Als eerste zijn de casus en de scope bepaald. In overleg met de betrokken afdelingen is ervoor gekozen om het oude publieksaccount als casus te nemen voor dit onderzoeksproject. De scope omvat alle berichten van het account, vanaf april 2009 tot september 2021. Vervolgens zijn de bestaande informatiebronnen over sociale-media-archivering in kaart gebracht en geraadpleegd. De meest gebruikte informatiebronnen waren van het Vlaamse archiefinstituut Meemoo en het Netwerk Digitaal Erfgoed.
B. Analyse
Na het in kaart brengen van alle mogelijke methodes en gebruikte technieken is het projectteam weer in gesprek gegaan met de stakeholders. En zijn eisen en wensen opgehaald voor de selectie van een tool.
De eisen en wensen kwamen neer op twee zaken:
- De opslag van de bestanden moest volgens de EU-regelgeving gaan, zodat aan de wetgeving wordt voldaan (zie juridisch kader).
- De look and feel van het platform moest meekomen. Dit houdt in dat het design van Twitter behouden werd. Denk hierbij aan lay-out en lettertypes en aan het gedrag van dynamische elementen, zoals bepaalde knoppen.
Met deze eisen kon het projectteam al snel een shortlist opstellen van twee tools: ArchiveWeb.page en Browsertrix. Beide zijn opensourcetools die vallen onder het project Webrecorder.
Archiveweb.page
ArchiveWeb.page is een extensie bij de Chrome browser. Het zorgt ervoor dat je je eigen scherm opneemt. Je registreert dus wat je zelf open hebt staan en aanklikt. Het is eenvoudig in gebruik, maar wel tijdsintensief door het handmatig registreren.

Het resultaat van Archiveweb.page na het binnenhalen is een WACZ-bestand (Web Archive Collection Zipped). In dit bestandstype, in feite dus een zip-container, zitten vervolgens weer de WARC-bestanden samen met uitgebreide metadata. Het WARC-bestandsformaat is een voorkeursformaat voor webarchieven en bevat de look and feel van Twitter.
Browsertrix
Ook de andere tool op de shortlist, Browsertrix, leverde een WACZ op. Deze tool is minder handmatig. Wat een voordeel is. Op het moment van testen werkte het echter niet perfect. Ook waren bugs aanwezig die het proces compliceerden. De in 2022 ingevoerde nieuwe beperkingen van Twitter leidden tot niet-complete informatieobjecten. Omdat dit project ging over één account kon het handmatig. Daarom is uiteindelijk gekozen voor Archiveweb-page.

C. Evaluatie
Na de keuze voor de tool ArchiveWeb.page is een collega hiermee aan de slag gegaan. Het oude account van het Nationaal Archief is voor zover mogelijk geregistreerd. Na evaluatie bleek dat alleen de tweets uit het jaar 2019 geregistreerd konden worden. Dit vanwege de beperkingen tot inzage (maximaal 2.000 tweets per dag). Met een tijdelijk betaald account voor de periode van registratie zou dit omzeild kunnen worden. De kwaliteit van het gerealiseerde deel van het informatieobject was goed, maar niet perfect. Onder andere de embedded video en sommige emoji’s zorgden voor artefacten (onbedoelde effecten) in de weergave; de content zelf ontbreekt, maar er is wel een signalering dat er content hoort te zijn.

D. Terugkoppeling
Na registratie is er teruggekoppeld aan de stakeholders. Tijdens deze terugkoppeling zijn de registratie en de uitdagingen besproken. Afsluitend zijn we begonnen met de opslag en het ter beschikking stellen van het opgeleverde informatieobject. Het informatieobject hebben we overgeplaatst in het zaaksysteem. Op het moment van schrijven is nog geen besluit genomen over ter beschikking stellen aan het publiek. Het informatieobject behoort namelijk tot het instellingsarchief van het Nationaal Archief. Het wordt te zijner tijd als openbaar stuk overgebracht naar de collectie van het Nationaal Archief.
Juridische vraagstukken
Zoals eerder genoemd was het belangrijk dat de opslag van de bestanden voldeed aan EU-regelgeving. In artikel 3 van de Algemene verordening gegevensbescherming (AVG) staat vermeld dat alle EU-landen moeten voldoen aan dezelfde regels rondom gegevensbescherming. Bij landen buiten de EU gelden andere regels. Voor dit onderzoek stelden we opslag in de EU vast als eis. Dit beperkte onze keuze in tools.
Context
De rijksoverheid is zonder veel vooronderzoek gestart met Twitter (X). Bij ingebruikname is weinig aandacht besteed aan het archiveren van dit type overheidsaccounts. Dit heeft er ook bij het account van het Nationaal Archief toe geleid dat er na twaalf jaar van gebruik nog niets van het platform was gearchiveerd.
De overname van Twitter door Elon Musk heeft getoond hoe complex het is om bij een commercieel platform controle te blijven houden over de eigen content. Door beperkingen rondom toegang werd het lastig om het gehele account te archiveren. Ook de functie waarin Twitter zelf de mogelijkheid tot het downloaden van de eigen data aanbiedt, is verre van optimaal. Zo verdwijnt de oorspronkelijke look and feel en zijn comments/reacties van anderen niet zichtbaar.
Technische vraagstukken
Doordat registratie via de API tevens werd belemmerd door de nieuwe beperkingen vanuit Twitter, zijn technieken die daar gebruik van maakten niet meer optimaal. Dat, in combinatie met het beperken van inzage tot een maximum van 2000 tweets per dag, zorgt ervoor dat accounts met meer dan 2000 tweets niet goed kunnen worden gearchiveerd. Al deze beperkingen maakten het daarom tot een uitdaging om tot een volledige registratie te komen die aan de kwaliteitseisen van het Nationaal Archief voldeed. In toekomstige projecten houden we hiermee rekening.
| Lessons learned | Toelichting |
|---|---|
| Bepaal welk resultaat nodig is. Kies daarna de techniek voor archiveren. | De keuze voor de techniek van archiveren is erg bepalend voor het resultaat |
| Maak eerst een plan voor het archiveren van een account op sociale media. Maak daarna pas het account aan. | Maak het plan bij voorkeur in overleg met de afdeling/het team Communicatie. Bij het Nationaal Archief is dit inmiddels besproken met het team Communicatie en zal hierover meer contact zijn tussen de informatie- en communicatieprofessionals. |
| Betrek bij het archiveren van sociale media de afdeling/het team Communicatie. | Communicatie heeft immers het account gemaakt en beheerd. En weet waar het account uit bestaat. |
| Registreer content op sociale media platformen proactief. | Wacht niet te lang met registreren van sociale-mediacontent. Sociale media is zeer veranderlijk en dit kan leiden tot informatieverlies. |
| Houd de technische ontwikkelingen van het archiveren van sociale media content in de gaten en blijf streven naar verbetering en oplossingen. | Het archiveren van sociale media is een dynamisch veld waarin veel gebeurt aan de kant van de platforms (zoals ontwikkelingen en beperkingen) en aan de kant van de archiveringstechnieken. Gedurende het project waren er veel veranderingen door de overname van Twitter. Daarom is het belangrijk om tijdens het archiveringsproces ontwikkelingen in de gaten te houden. |
