Aan de slag met WARC-validatie

Handreiking WARC-validatie voor webarchiefbestanden

#Wat is WARC-validatie?

Valideren betekent geldig-verklaren. WARC-validatie houdt in dat gecontroleerd wordt of het webarchiefbestand voldoet aan de WARC-standaard ISO-28500. Op dit moment bestaan er twee versies van deze standaard: versie 1.0 (ISO-28500:2009) en versie 1.1 (ISO-28500:2017). Door webarchiefbestanden te valideren kunnen fouten worden opgespoord en kan actie worden ondernomen om ze zo nodig te herstellen.

#Wanneer valideren?

Het is aan te raden om de validatietools op regelmatige basis te gebruiken, maar ten minste bij de volgende gebeurtenissen.

Door de verantwoordelijke overheidsorganisatie:

  • Direct na de jaarlijkse volledige harvest.  
  • Voordat de webarchieven naar een andere organisatie worden gebracht. Bijvoorbeeld bij overbrenging naar een archiefinstelling voor blijvende bewaring of naar een andere harvestingdienstverlener voor beheer van de webarchieven.

Door de archiefinstelling:

  • Op het moment dat de webarchieven worden overgebracht voor blijvende bewaring.

#Welke validatietools zijn geschikt?

Er bestaan verschillende applicaties die webarchiefbestanden op hun conformiteit met de WARC ISO 28500-standaard toetsen. Hieronder zetten we de tools uiteen die het Nationaal Archief adviseert om te gebruiken. Deze tools zijn geselecteerd na een uitgebreide inventarisatie van de markt, waarna ze zijn getest door materiedeskundigen van het Nationaal Archief.
 

Alles uitklappen

Versie getest: JHOVE-versie 1.22 (van april 2019), met daarin versie 1.0.3 van JWAT-WARC

Algemeen

JHOVE is Java-opensourcesoftware voor identificatie, validatie en karakterisatie van diverse soorten computerbestanden. De software is bruikbaar op UNIX-, Windows- of OS X-besturingssystemen met een passende versie van de Java Runtime Environment. JHOVE kan worden gebruikt als commandoregeltool, grafische gebruikersomgeving of API

Sinds versie 1.14 (van mei 2016) kan JHOVE ook WARC-bestanden valideren. Hiervoor is de tool JWAT-WARC (versie 1.0.3 van juni 2015) in JHOVE geïntegreerd. 
Zie voor een beschrijving van wat JHOVE valideert de beschrijving van JWAT. 

Onderhoud en support

Goed - De Open Preservation Foundation  ontwikkelt en onderhoudt JHOVE actief .

Behalve als op zichzelf staande tool, wordt JHOVE ook aangeboden binnen een virtuele omgeving die de Open Preservation Foundation samen met het Netwerk Digitaal Erfgoed heeft ontwikkeld. In deze Virtual Research Environment (VRE) worden zes van de meest gebruikte open-source preservering tools in een bundel beschikbaar gesteld. De VRE kan gebruikt worden om JHOVE te testen zonder de software zelf te hoeven installeren of configureren.

Ondersteuning WARC ISO 28500-standaard

Versie 1.0 (ISO 28500:2009)  ja
Versie 1.1 (ISO 28500:2017)  nee

Voor- en nadelen

JHOVE is beoordeeld als een nuttig hulpmiddel bij het beheer van WARC-bestanden. Een voordeel van JHOVE is dat het naast WARC’s ook andere soorten computerbestanden kan valideren, zoals GIF, JPEG, PDF, TIFF en WAVE. De tool is dus breder inzetbaar dan alleen voor WARC-validatie. Door de actieve gebruikerscommunity en ondersteuning vanuit de Open Preservation Foundation is er bovendien een solide basis voor doorontwikkeling. 

Een nadeel van JHOVE is dat de huidige versie niet de laatste versie van JWAT in zich heeft. 

Let op: door een bug is het nodig om bij installatie expliciet de WARC-module te selecteren. De automatische herkenning van modules gaat niet altijd goed.

Meer informatie

Versie getest: JWAT-WARC-versie 1.1.1 (van maart 2018), ingebouwd in de commandoregel-tool JWAT-Tools 0.6.6 (van maart 2018).

Algemeen

JWAT is Java-opensourcesoftware voor het lezen, schrijven en valideren van WARC-, ARC- en GZIP-computerbestanden. De software is bruikbaar op UNIX-, Windows- of OS X-besturingssystemen met een passende versie van de Java Runtime Environment. JWAT kan worden gebruikt als softwarebibliotheek  of als onderdeel van een commandoregeltool. Een consortium van (nationale en universiteits)bibliotheken onderhoudt JWAT als onderdeel van de NetarchiveSuite. 

JWAT kan WARC-, ARC- en GZIP-computerbestanden valideren. De werking van het WARC-leesproces is hier gedocumenteerd: https://sbforge.org/display/JWAT/WARC+reader+process

Onderhoud en support

Beperkt – Al enkele jaren is er weinig ontwikkeling en onderhoud aan de software. 

Ondersteuning WARC ISO 28500 standaard

Versie 1.0 (ISO 28500:2009)  ja
Versie 1.1 (ISO 28500:2017)  nee

Voor- en nadelen

Een voordeel van JWAT is dat deze software naast WARC-computerbestanden ook ARC’s (de voorloper van het WARC-formaat) en gecomprimeerde GZIP-computerbestanden aankan. En meer kan dan alleen valideren (zie Productgebruik en installatie). Een nadeel is dat de tool op dit moment niet heel actief onderhouden wordt. 

Meer informatie

Versie getest: WARCAT 2.2.5 (van april 2017)

Algemeen

WARCAT is Python-opensourcesoftware voor het laagdrempelig en snel werken met WARC-bestanden. De software is bruikbaar op UNIX-, Windows- of OS X-besturingssystemen met een passende Pythonversie. WARCAT kan worden gebruikt als softwarebibliotheek of als commandoregeltool. Het Archive Team heeft WARCAT ontwikkeld.

WARCAT kan WARC-bestanden valideren. Het verifieert de digest en valideert de conformiteit van ISO 28500 (versie 1.0). Zie ook https://github.com/chfoo/warcat/blob/develop/warcat/tool.py

Onderhoud en support

Beperkt – Al enkele jaren is er weinig ontwikkeling en onderhoud aan de software.

Ondersteuning WARC ISO 28500-standaard

Versie 1.0 (ISO 28500:2009)  ja
Versie 1.1 (ISO 28500:2017)  nee

Voor- en nadelen

Een voordeel van WARCAT is dat het meer kan dan alleen WARC-bestanden valideren. Een nadeel is dat de tool op dit moment niet heel actief onderhouden wordt. En er geen officiële beheerorganisatie achter de tool zit.

Meer informatie

Versie getest: WARCIO 1.7.1 (van juli 2019)

Algemeen

WARCIO is Python-opensourcesoftware voor snel, standalone lezen van ARC’s en WARC’s, en het schrijven van WARC’s. De software is bruikbaar op UNIX-, Windows- of OS X-besturingssystemen met een passende Pythonversie. WARCIO kan worden gebruikt als softwarebibliotheek of als commandoregeltool en is onderdeel van de webrecordersoftware Conifer. Webrecorder Software onderhoudt WARCIO.

WARCIO kan WARC-computerbestanden controleren. Het check-commando controleert zo mogelijk de block- en payloaddigests van versie 1.0 en versie 1.1 van de WARC-standaard. 

Onderhoud en support

Goed – WARCIO wordt actief ontwikkeld en onderhouden door Webrecorder Software.

Ondersteuning WARC ISO 28500-standaard

Versie 1.0 (ISO 28500:2009)  ja
Versie 1.1 (ISO 28500:2017)  ja

Voor- en nadelen

Een voordeel van WARCIO is dat het zowel versie 1.0 als versie 1.1 van de WARC-standaard ondersteunt, en actief onderhouden wordt. Een nadeel is dat de check beperkt is tot de controle van block- en payloaddigests.

Meer informatie

#Wat controleren de tools?

Een WARC-bestand bestaat volgens de ISO-standaard uit een of meer WARC-records. Deze WARC-records bevatten regels met een veldnaam en een waarde, die van elkaar gescheiden worden door een dubbele punt (veldnaam: waarde). Validatietools verifiëren of de bestandsopbouw en de veldwaarden aan de ISO-28500 normeisen voldoen. De tools geven signalen als er afwijkingen zijn. De output is een waarschuwingsrapport met het aantal invalide en ontbrekende gegevens, wat als trigger dient om actie te ondernemen.

Uit het onderzoek is gebleken dat niet alle geteste validatietools alle relevante velden toetsen aan de WARC-norm. WARCIO bijvoorbeeld is beperkt, maar wel heel gericht gespecialiseerd in het controleren van block- en payloaddigests. Andere tools lijken wel alle aspecten te controleren maar doen dit mogelijk minder gedetailleerd.

In de hieronder gepresenteerde tabel is inzichtelijk gemaakt wat elke tool precies controleert. Lees meer over de testopzet en de specifieke validatiemeldingen die in ons onderzoek voorkwamen.

Relevante velden WARC NEN-ISO 28500

JHOVE

JWAT

Warcat

WARCIO

WARC-Record-ID

v

v

v

 

Content-Length

v

v

v

 

WARC-Date

v

v

v

 

WARC-Type

v

v

v

 

Content-Type

v

v

v

 

WARC-Concurrent-To

v

v

v

 

WARC-Block-Digest

v

v

v

v

WARC-Payload-Digest

v

v

 

v

WARC-IP-Address

v

v

v

 

WARC-Refers-To

v

v

v

 

WARC-Refers-To-Target-URI

v

v

 

 

WARC-Refers-To-Date

v

v

 

 

WARC-Target-URI

v

v

v

 

WARC-Truncated

v

v

 

 

WARC-Warcinfo-ID

v

v

 

 

WARC-Filename

v

v

v

 

WARC-Profile

v

v

 

 

WARC-Identified-Payload-Type

v

v

 

 

WARC-Segment-Number

v

v

 

 

WARC-Segment-Origin-ID

v

v

v

 

WARC-Segment-Total-Length

v

v

v

 

NB: De velden WARC-Refers-To-Target-URI en WARC-Refers-To-Date zijn toegevoegd in de NEN ISO-28500:2017-versie van de WARC-standaard.

#Wat te doen bij geconstateerde afwijkingen?

Als er door controle een afwijking wordt geconstateerd, dan dient dit zo snel mogelijk gemeld te worden bij de harvestingleverancier. De leverancier moet onderzoeken wat de oorzaak is en passende maatregelen nemen om herhaling te voorkomen. Afwijkingen, de oorzaken daarvan en de genomen maatregelen, moeten daarnaast ook gerapporteerd worden aan de manager die bij de contenteigenaar verantwoordelijk is voor de websitearchivering. Zie voor verdere informatie  over hoe te handelen paragraaf 4.8 van de Richtlijn archiveren overheidswebsites.

#Conclusie en advies

De geselecteerde validatietools vormen een goed vertrekpunt om vast te stellen of een webarchiefbestand technisch van goede kwaliteit is. Validatietools zijn echter niet feilloos. Er kunnen bugs in de software zitten. Ook kan het voorkomen dat verschillende tools of verschillende versies van een tool op hetzelfde onderdeel een ander resultaat teruggeven. Uit de testen is bovendien gebleken dat de tools kunnen achterlopen op de ontwikkeling van de WARC-standaard of alleen maar een beperkt aantal aspecten, zoals alleen block- en payloaddigests, controleren. 

Concluderend kunnen we stellen dat er geen ultieme WARC-validatietool is die alles afvangt. Daarvoor is het vakgebied ook eigenlijk nog te jong en hebben de tools over het algemeen nog een te laag volwassenheidsniveau. Van de onderzochte tools biedt JHOVE de meeste voordelen. Wat deze tool onderscheidt is de bredere inzetbaarheid, de grafische gebruikersinterface en de actieve beheerorganisatie. Echter door ook andere tools mee te nemen, kan een nog betere en completere analyse worden gemaakt. Een gecombineerde inzet van tools is daarom voorlopig de beste strategie.

Ervaring opdoen

Ondanks dat WARC-validatie nog in de kinderschoenen staat, kan het nut van validatietools niet genegeerd worden. Het is voor de toekomst van webarchivering belangrijk om te kijken hoe we deze instrumenten van toegevoegde waarde kunnen maken. Ervaring opdoen met het gebruik van validatietools is daarom van groot belang. 

Het Nationaal Archief roept organisaties op om ervaringen en opgedane kennis met elkaar uit te wisselen, om van elkaar te leren. Organisaties die hiertoe willen bijdragen kunnen met elkaar en onze experts in gesprek gaan op het kennisplatform Webarchivering van het Kennisnetwerk Informatie en Archief (KIA) of een bericht sturen via het contactformulier. Het Nationaal Archief actualiseert de handreiking als nieuwe ontwikkelingen en/of nieuwe inzichten daartoe aanleiding geven.