Toelichting compressie

In deze toelichting over compressie vind je een uitleg over de verschillende vormen van compressie en adviezen over het wel of niet toepassen hiervan.

Algemeen advies

Maak bij voorkeur geen gebruik van compressie bij de opslag van computerbestanden wanneer compressie geen onderdeel van de bestandsformaatspecificatie uitmaakt. De besparing van opslagruimte en uitwisselingscapaciteit weegt niet op tegen het risico op informatieverlies.

Kies je om zwaarwegende redenen toch voor compressie, maak dan gebruik van lossless compressie. Bijvoorbeeld omdat een gezipte verzameling bestanden in die vorm werd ontvangen en als zodanig bewaard dient te worden.

Overweeg lossy compressie alleen als het echt niet anders kan. Bijvoorbeeld wanneer videotulen met lossy compressie, maar met hoogwaardige kwaliteit worden vastgelegd in een voorkeursformaat en er onvoldoende schijfruimte of budget is voor lossless gecomprimeerde videotulen.

Weeg in beide gevallen de nadelen en risico’s van compressie af tegen de redenen om toch voor compressie te kiezen. En maak gebruik van een open en volledig gedocumenteerde compressietechniek.

Definitie en scope van compressie

Met compressie wordt hier 'datacompressie' bedoeld. Dat is "het representeren van digitale gegevens met minder bits dan de oorspronkelijke representatie".

Het omvat niet:

  • Compressie op het niveau van bestands- of opslagsystemen. Door het NTFS-bestandssysteem biedt Microsoft Windows bijvoorbeeld de mogelijkheid om compressie op schijven of mappen toe te passen. Hierdoor bespaar je schijfruimte. Windows (de)comprimeert de opgeslagen bestanden automatisch.
  • Compressie met het oog op de uitwisseling van bestanden. Maar wel over de situatie voor en na die uitwisseling. Compressie kan gebruikt of zelfs vereist worden bij uitwisseling, zoals bij overbrenging van bestanden van een archiefvormer naar een archiefdienst. Dit is afhankelijk van de gehanteerde uitwisselingsstandaard.
  • Data-deduplicatie (ontdubbelen) in een opslagsysteem. Niet echt compressie, wel schijfruimtebesparing. Want sla je meerdere, identieke exemplaren van een bestand op, dan slaat het systeem één exemplaar op, met meerdere verwijzingen daarnaartoe. Verwijzingen kosten minder schijfruimte dan meerdere exemplaren.

Voor- en nadelen van compressie

Een voordeel van compressie is dat "het helpt om bronnen te verkleinen en daardoor een hogere opslagcapaciteit of transmissiecapaciteit geeft". Nadelen en risico's zijn er ook, want voor compressie zijn tijd en rekenkracht nodig, en bij beschadiging van een gecomprimeerd geheel kan alles wat er in zit ontoegankelijk worden. Aan de buitenkant van het gecomprimeerde geheel is ook niet altijd te zien wat er in zit.

Wettelijke eisen aan compressie

De Archiefregeling 1995 meldt in lid 3 van artikel 26 (Algemene eisen aan opslagformaten voor digitale archiefbescheiden): "Gebruikmaking van compressietechniek is slechts toegestaan, voor zover daarbij niet zodanig verlies van informatie optreedt, dat niet langer aan de bij deze regelig gestelde eisen ten aanzien van de toegankelijke en geordende staat van digitale archiefbescheiden kan worden voldaan."

In de Toelichting bij de Archiefregeling staat: "Onduidelijk is in hoeverre bijvoorbeeld lossless compressie wel of geen effect heeft op de integriteit van een digitaal bestand (het geheel van digitale gegevens in een zelfde bestandsformaat), en dus op de daarmee geproduceerde archiefbescheiden. Overigens is ingevolge het eerste lid ook bij compressiemethoden (sic) het gebruik van open en gedocumenteerde standaarden verplicht."

Technieken van compressie

Alles uitklappen

Met lossless exact omkeerbare of verliesvrije compressie, worden compressietechnieken bedoeld waarmee de volledige terugkeer naar de originele informatie mogelijk is. Er treedt geen informatieverlies op. Zippen is een lossless compressietechniek.

Lossles compressie is daarom onder voorwaarden toegestaan.

Lossy of niet-exact omkeerbare compressietechnieken gaan gepaard met informatieverlies; de volledige terugkeer naar de originele informatie is niet mogelijk. Bij het lossy opslaan van audio worden meestal frequenties weggelaten waarvan wordt aangenomen dat de mens ze niet opmerkt. Sla je afbeeldingen lossy op, dan worden vaak visuele details weggelaten.

Bij compressie van afbeeldingen, kan lossy compressie leiden tot artefacten. Deze compressieartefacten zorgen bij sterk gecomprimeerde JPEG-foto’s bijvoorbeeld voor scherpe overgangen tussen elementen in de foto/afbeelding of een vlekkerig of rafelig uiterlijk. Dit levert dus waarneembaar informatieverlies op. Bij lossy gecomprimeerde audio, afbeeldingen of video kunnen vervormingen (distortion) optreden. Een drum of bas klinkt mogelijk zwakker en minder ‘vol’, een foto of video kan blokkerig worden.

Lossy compressie wordt daarom afgeraden.

Vormen van compressie en hun mogelijke toepassing

Alles uitklappen

De eerste mogelijke toepassing is via een gecomprimeerd containerbestand waarin bestanden zijn ingesloten, zoals .zip of .gz. Zippen is hier een voorbeeld van.

Het gebruik van deze vorm van compressie wordt afgeraden omdat de eerdergenoemde nadelen en risico’s zwaarder wegen dan de voordelen. Zijn er toch zwaarwegende redenen om voor deze toepassing te kiezen, kies dan voor lossless compressie om de kans op informatieverlies zo klein mogelijk te maken. 

Een voorbeeld van een uitzondering is het zippen van een informatieobject dat, vanwege de eigenschappen van het bestandsformaat, uit verschillende losse bestandjes bestaat die alleen samen een werkend geheel vormen. En waarbij de afzonderlijke bestandjes geen eigen betekenis hebben. Denk hierbij aan de verschillende bestanden die samen een Shapefile vormen.

Een tweede mogelijke toepassing is via een bestand dat volgens een bestandsformaatspecificatie is gecomprimeerd, zoals .docx en .warc.gz. Het verschil met een containerbestand is dat compressie onderdeel van de bestandsformaatspecificatie is, zoals:

  • Bestanden van moderne kantoorpakketten, zoals Microsoft Office Word-documenten (.docx) of LibreOffice Open Document Format-documenten (.odt). Deze bestanden zijn gezipte mappenverzamelingen met (XML-)bestanden. Het is dus een (formaat)specifieke toepassing van zippen. 
  • Bestanden voor webarchieven (.warc.gz of .wacz). De bestandsformaatspecificatie beschrijft expliciet hoe je compressie kunt toepassen op deze webarchieven. 

Het gebruik van deze vorm van compressie is mogelijk alleen als sprake is van lossless compressie. Omdat deze compressie onderdeel is van de specificatie, weet software correct om te gaan met dergelijke bestanden. Deze vorm van compressie moet dan wel aansluiten bij het van toepassing zijnde voorkeursformatenbeleid.

Een derde mogelijke toepassing is via een bestand waarin datastromen volgens een specificatie zijn gecomprimeerd, zoals .jpg en .mp4.

Dit wordt vaak gebruikt voor afbeeldingen en audio- en videobestanden. De zicht- of hoorbare informatie wordt als gecomprimeerde datastroom binnen een bestand opgeslagen. Op het bestand zelf is geen compressie toegepast. Andere datastromen binnen het bestand zijn niet of anders gecomprimeerd. Denk daarbij aan bestandsinterne (ID3 -)metadata over titel, artiest en album in MP3-audiobestanden. Of videobestanden waarin de audio en video aparte en anders gecomprimeerde datastromen zijn. 

Dit noemen we een codec. Codec is de afkorting voor soft- of hardware die data zowel kan coderen (of comprimeren) als decoderen (of decomprimeren). Vooral bij audio- en videobestanden hoor je de term codec dus vaak. Voor het formaat MP4 of MPEG-4 Part 14 (.mp4) werd bijvoorbeeld de (referentie)codec H.264, MPEG-4 Part 10 of AVC ontwikkeld. Waar binnen een MP4 de datastroom met beeld bijvoorbeeld via een H.264-codec wordt gecomprimeerd, wordt voor de datastroom met geluid vaak een andere codec gebruikt, zoals de Advanced Audio Codec (AAC). Zie voor aangeraden codecs de lijst voorkeursformaten in de norm

Deze bestanden kunnen gebruikt worden als ze aansluiten bij je voorkeursformatenbeleid en er geen of lossless compressie wordt gebruikt. Wees terughoudend met bestanden van toepassingstype 3, ‘bestanden met gecomprimeerde datastromen’. Weeg de voors en tegens van compressie goed tegen elkaar af, met het voorkomen van informatieverlies als prioriteit. Terwijl er voor afbeeldingen - en audio - nog compressieloze opties beschikbaar zijn, is dit voor video vrijwel niet het geval. Daarom: maak waar mogelijk liever gebruik van lossless compressie dan van lossy compressie. Kies voor veelgebruikte, goed ondersteunde, open beschikbare en zo volledig mogelijk gedocumenteerde formaten en codecs, en houd rekening met je voorkeursformatenbeleid.