E-discovery: machine learning en e-mail

i-a-machine learning bits and bites
18 oktober 2018

Het Nationaal Archief startte in 2016 met een onderzoek naar de mogelijkheden van E-discovery binnen informatiemanagement. In het kader van dit onderzoek is, in samenwerking met de ICT Uitvoeringsorganisatie (ICTU), een prototype ontwikkeld dat inkomende en uitgaande e-mails automatisch classificeert.

Aanleiding

Door de digitalisering van de maatschappij zijn de manieren waarop we werken en met elkaar communiceren in de afgelopen jaren fundamenteel veranderd. Binnen de overheid zijn we nog niet goed ingespeeld op de effecten die deze digitalisering met zich meebrengt. Door de ontwikkeling van de computer, het internet, cloud computing en bring your own device (BYOD) bevindt informatie zich niet langer op één plek en niet meer in één systeem. Dit leidt tot fragmentarische opslag en beheer van informatie. Informatie is niet meer uniek en wordt in allerlei processen (her)gebruikt. Het waarderen van informatie is daardoor lastiger geworden. Wat niet helpt is dat het waarderen van informatie in de meeste gevallen achteraf en handmatig gebeurt. Het project machine learning toegepast op e-mailverkeer is ingezet om te kijken of dit anders kan.

Herken een e-mail

Tijdens het project is geprobeerd om zakelijk e-mailverkeer (functionele e-mailberichten) en privaat e-mailverkeer (ruis) te herkennen en te categoriseren/labelen. Een functioneel e-mailbericht kan formeel zijn (bijvoorbeeld ontvangen vanuit een dienstpostbus) of informeel (werkgerelateerde communicatie tussen collega’s). Dit soort e-mails komt overigens niet per definitie in aanmerking voor langdurige bewaring, maar moeten wel een periode bewaard blijven ter verantwoording. Ruis bestaat niet alleen uit e-mails die voor privégebruik zijn verstuurd, maar ook informele communicatie tussen collega’s (‘hoe was je vakantie?’), dubbele informatie (cc-berichten), nieuwsbrieven, e-mails over uitstapjes en traktaties, etc.

Om e-mailverkeer zo vroeg mogelijk (het liefst op het moment van creatie) een waardering (classificatie) mee te geven, is een prototype ontwikkeld om te kijken of machine learning kan worden ingezet.

Hoe is nu het prototype tot stand gekomen?

Er is gebruik gemaakt van supervised machine learning. Dit betekent dat een systeem getraind wordt met informatie die al een toegewezen klasse heeft (in dit geval functioneel of ruis). Met behulp van deze informatie gaat het systeem eigenschappen herkennen van beide klassen. Het leert zichzelf dus een onderscheid te maken tussen functionele en ruismails. Daarna kunnen er ongeclassificeerde/ongelabelde e-mails van medewerkers aan het systeem ‘gevoed’ worden. Het systeem maakt een voorspelling op basis van wat het reeds geleerd heeft. De medewerker krijgt vervolgens de voorspelling te zien en geeft aan of het systeem de e-mail correct geclassificeerd heeft. Dit geven ze terug aan het systeem. Deze gegevens worden weer gebruikt als nieuwe trainingsdata.

De resultaten

De installatie is onlangs gelukt, maar het was een weg van vallen en opstaan. De belangrijkste lessen:

  • Experimenteren is net zo belangrijk als het leveren van een eindproduct. Een prototype wordt ontwikkeld om een gezamenlijk beeld te creëren. Door met een prototype te werken onderzoek je de (on)mogelijkheden van een bepaalde toepassing.
  • Je moet een duidelijk beeld hebben van de eisen die je stelt en de (technische) voorwaarden. Waar worden bijvoorbeeld de daadwerkelijke gegevens opgeslagen en hoe krijg je toegang tot deze gegevens?

Hoe nu verder?

Het onderzoeksteam kan nu al zeggen dat het experiment succesvol is en dat het zich verder wil verdiepen in het inzetten van zelflerende systemen voor informatiemanagement. Eind 2018 wordt het eindrapport met resultaten gepubliceerd op het KIA-kennisplatform Innovatie. 

Dit artikel is gebaseerd op het artikel Machine learning
Zelflerende systemen voor informatiemanagement in de OD van september 2018. Het volledige artikel is gepubliceerd op het Kennisplatform Innovatie.