Archiveren is meer dan alleen archiveren

15 - september, 2016

Over archiveren bestaan veel misverstanden. De ICT-industrie kijkt namelijk heel anders naar archiveren dan dat archivarissen of de wet dat doen. Dit artikel gaat dieper in op het archiveren van data en beschrijft een concreet voorbeeld van het Regionaal Historisch Centrum Eindhoven waar we een geavanceerde oplossing op basis van een dienst voor hebben ontwikkeld. 

Veel organisaties zijn (in meer of mindere mate) verplicht om data die leidt tot verantwoording van bijvoorbeeld jaarrekeningen of certificeringen (ISO, ISAE3402) te archiveren om deze in specifieke gevallen te kunnen overleggen. Hiervoor is het nodig dat deze data wordt opgeslagen op een medium en voorzien van een ‘slot’ tegen wijziging. Oftewel: bij archivering van data op een fileserver kan de integriteit van een bestand niet worden gegarandeerd omdat er altijd mensen zijn die de data aan zouden kunnen passen. Om uw data wel compliant te archiveren is het noodzakelijk om deze op te slaan op een ‘compliant-device’ met de bijbehorende meta-data en retentietijden. 

Digitaal archiveren, hoe werkt dat?

Er is een wezenlijk verschil tussen archiveren zoals archivarissen dit zien en zoals de ICT-industrie dit ziet. Binnen de ICT-industrie is archiveren het verplaatsen van data tussen device X en device Y. Terwijl voor archivarissen het verplaatsen van het bestand het laatste is wat moet gebeuren in een hele keten van ‘content-value-chain-processen’ (zoals het verduurzamen, bewerken en preserveren van de gegevens en toevoegen van uitgebreide meta-data conform verschillende metadata-modellen).

Om goed te kunnen archiveren is het noodzakelijk om data-classificatie toe te passen. U neemt dan bij opslag van een bestand in de metadata mee wat de classificatie is van de data. Op basis van deze classificatie kan dan de data worden gearchiveerd, op een manier die specifiek is voor dat type data. Inclusief bijbehorende retenties, zodat de data pas kan worden vernietigd na een bepaalde tijd. 

Gebruik van policies

Het digitaal archiveren, zoals dit opgaat voor 80% van de organisaties die een archiveringsoplossing gebruiken, is het verplaatsen van data van bijvoorbeeld een mailserver of een fileserver naar een apart archiveringssysteem. Waarbij u via policies kunt aangeven welke data wanneer en waarheen verplaatst moet worden. Een voorbeeld zou kunnen zijn om data die langer dan 90 dagen niet meer is gemuteerd, te verplaatsen naar het archief en daar blijft het tot vernietigd kan worden. Op de mail- en fileserver blijft dan een zogenaamde ‘stub’ achter, een link naar de locatie waar de email/file gearchiveerd is.  De gebruiker ziet nog steeds het mailbericht of het bestand, alleen wordt deze bij aanklikken opgehaald uit het archief. 

Snelle en trage storage

Wat we ook veelvuldig hanteren bij onze klanten is ‘storage tiering’: Opslag op verschillende type storage afhankelijk van de behoefte van de applicatie of data. Snelle storage voor databases en tragere storage als archief. Meestal is dit gebaseerd op ander type schijven. Of klanten gebruiken een oude storageomgeving als archief. Hieraan kleven nadelen, met name op het vlak van beveiliging. Wordt bijvoorbeeld een fileserver gebruikt dan is deze niet beveiligd tegen mutaties.

Onlangs hebben we een gesprek gehad met de belastingdienst om te kijken of het mogelijk was om facturen digitaal te bewaren en de papieren versies te vernietigen. Daarmee kan de belastingdienst akkoord gaan mits kan worden aangetoond dat de facturen níét gemuteerd kunnen worden. Hierdoor vallen fileserver-achtige oplossingen af. Ook compressie, afhankelijk van de technologie, valt onder mutaties en kan dus niet worden toegepast. 

Meer ruimte vrij

Primaire storage is kostbaar. Een goede archiveringsoplossing neemt de noodzaak om te investeren in primaire storage weg. U verplaatst immers de data van de primaire storage naar het archief. Hiermee komt ruimte vrij op de primaire storageomgeving. Uiteindelijk heeft u een omgeving draaien waarbij u voldoende capaciteit heeft aan de voorkant (primaire storage) en u uitsluitend hoeft te investeren in de achterkant (archief). Deze capaciteit is veelal goedkoper. Ook kunnen de gearchiveerde objecten buiten de back-up blijven waardoor deze ook beter zal presteren. Hiervoor is het uiteraard wel noodzakelijk om de archiefoplossing redundant uit te voeren. 

Archivering als een dienst voor RHCE
Voor het Regionaal Historisch Centrum Eindhoven (RHCE) is archivering cruciaal. Samen met hen hebben we een pilot opgezet om archivering als een dienst vanuit onze datacenters te leveren. Gezamenlijk hebben we uitgebreid tijd gestoken in het zoeken naar de juiste oplossing, zowel voor de software als de hardware. De belangrijkste eisen hadden betrekking op security, geen lock-in situatie (niet gebonden zijn aan één leverancier), data moet makkelijk uit het systeem te halen zijn, open standaarden  aan de voorkant zijn noodzakelijk (API’s), het systeem moet redundant over twee of meer geografisch gescheiden datacenters kunnen draaien en de ondersteuning van andere toepassingen zonder te veel aanpassingen. 

Object-based storagesysteem was de beste oplossing
Bij geavanceerdere archiveringssystemen wordt gesproken over objecten. Ieder object heeft een unieke identificatie waarmee het kan worden teruggevonden. Deze identificatie wordt toegewezen door het archiefsysteem nadat het bestand daar is geplaatst. Het probleem waar we bij onze pilot tegenaan liepen was het feit dat veel producten gebaseerd zijn op een database. Dus als we een grote ‘bak’ met objecten hebben en de database raakt corrupt of anderszins onbruikbaar weten we niet meer welke objecten wat bevatten. Doordat we ons als eis hadden gesteld dat we altijd de data uit het systeem moeten kunnen identificeren, vielen veel systemen af. De keuze viel uiteindelijk op een object-based storagesysteem waarbij we de metadata konden incorporeren in het object. Het systeem voegt de metadata toe aan het object en ziet dit als één geheel. Naast het systeem draait een searchengine die continue de data scant en bijwerkt in het systeem. Dus op alle velden binnen het object kan worden gezocht zonder database. 

Nieuwsbrief_sept_2016_archiveren_schema.jpg

Koppelingen met bestaande archiefsystemen
Bij de keuze van een product is het  vaak verstandig om ook te kijken naar eventuele koppelingen met bestaande (archief)systemen of dat u via RESTFUL API het systeem kunt uitvragen. Hiermee kunt u zelf koppelingen realiseren  tussen het eigen systeem en het archief. 

De pilot met RHCE heeft geleid tot een dienst die we nu in ons datacenter hebben draaien en die kan worden gekoppeld aan file/mail-archiefsystemen, SharePoint en kan worden benaderd via RESTFUL API’s. Voor RHCe is een Content-Value-Chain ontwikkeld om zo de specifieke taken van deze dienst te kunnen ondersteunen. Het afrekenmodel is vrij simpel, u betaalt per afgenomen GB per maand. Hiermee blijven de kosten duidelijk. De gebruikte technologie van deze dienst is ook standalone te plaatsen in uw eigen datacenter. 


Lees ook

 

Auteur: Ivo de Zeeuw

Hallo, mijn naam is Ivo de Zeeuw. Ik werk ruim 32 jaar in de IT, waarbij ik altijd geïnteresseerd ben in toepasbaarheid van technologie binnen de business. Als senior sales consultant heb ik me gespecialiseerd op het gebied van servers, storage, virtualisatie, cloud services en informatie integratie en ontwikkel ik met collega’s nieuwe diensten. Mijn kennis en ervaring deel ik graag met u. Leest u mee?


Nieuwsbrief_sept_2016_artikel_data_archivering_2.jpg
Deel deze pagina
   

Geef uw reactie