Dossier Stockage (volet 5) : De la sauvegarde à l’archivage

Cloud

La prolifération des dispositifs de stockage en entreprise amène la
hiérarchisation de ceux-ci pour combiner plus efficacement disques, bandes,
supports optiques et logiciels permettant de piloter tout ceci.

Les avantages d’une telle solution sont notoires (réduction sensible des coûts), mais ils s’accompagnent aussi de problèmes de sécurité liés notamment à la conformité réglementaire qu’il est nécessaire de mettre en place au niveau de la sécurité des données.

La première étape de cette approche est de reconnaître qu’il existe une hiérarchie entre les données et que cette même hiérarchie est reflétée par les supports utilisés et les technologies de distribution des données. D’où l’importance de ce que l’on appelle l’ILM (Information Lifecycle Management). Ce processus cherche à capitaliser sur les points forts des différentes technologies de stockage afin de répondre au mieux aux objectifs métier tout en minimisant les coûts d’acquisition et les dépenses opérationnelles.

Cette stratégie de hiérarchisation peut s’avérer très rentable. Néanmoins, il convient de faire particulièrement attention à l’intégrité des données et documents, certains d’entre eux devant se conformer au principe de non retouche après édition, notamment pour répondre aux principes juridiques de la preuve.

La sauvegarde (des données destinées à être réutilisées et retouchées) peut être classée en deux grandes familles :

  • Les sauvegardes locales : les données sont stockées sur le site (dans un même bâtiment ou un bâtiment proche). Elles peuvent être récupérées à la suite d’un incident mineur ou d’un dysfonctionnement du système d’information.
  • Les sauvegardes à distance : elles concernent principalement les données stratégiques qui sont stockées sur un site distant. La sauvegarde peut être réalisée en interne ou externalisée chez un prestataire. Après un incident majeur, la restauration peut s’effectuer sur le site de production ou sur le site distant. On notera d’ailleurs à ce propos que les solutions d’hébergement de la sauvegarde, si elles ne tentent guère les grandes entreprises, séduisent en revanche les PME (et plus particulièrement les TPE) qui y voient un bon mo ye n de se débarrasser une fois pour toutes d’une tâche ingrate. C’est ainsi que de nombreux prestataires proposent des sauvegardes automatisées totalement transparentes pour les utilisateurs et permettent des reconstitutions complètes de systèmes en quelques heures. Ces services sont relativement peu onéreux (entre 1 et 2 euros du Go par mois, la différence de prix se faisant sur les services d’accompagnement) et offrent un haut niveau de confort pour les entreprises qui y souscrivent. Généralement, au-delà de 500 Go, il est préférable de choisir une implantation sur site miroir distant permettant un redémarrage temps réel pour les grands comptes de la banque et de l’assuranec et entre une à quatre heures pour les autres entreprises.

C’est pourquoi, on utilise souvent des systèmes en cascade, le stockage primaire étant assuré sur disque dur pour les données auxquelles on doit accéder en permanence (base de données, données ERP, notamment), la sauvegarde étant assurée sur bande et l’archivage s’effectuant sur DVD-ROM ou disque magnéto-optique. Toutefois, cette différenciation a tendance à s’effondrer avec l’arrivée de supports de sauvegarde et d’archivage sur disque dur, un processus permet de « geler » des secteurs physiques du disque avec les informations inscrites dessus.

Il en est de même des bandes magnétiques, le support jusqu’à présent le moins onéreux, lesquelles peuvent également devenir un support d’archivage considéré comme inaltérable. Ces nouvelles technologies offrent d’ailleurs un autre avantage : il n’est pas nécessaire d’investir dans un système d’archivage dédié. Toutefois, cette approche a elle aussi un inconvénient : les formats des bandes évoluent avec le temps et il n’est pas certain de pouvoir relire dans 30 ans un support acquis aujourd’hui.

Les bandes magnétiques sont certes lentes comparées aux disques durs. Mais ce sont toutefois les seuls supports pour l’heure assez denses pour faire face à la formidable augmentation du volume de données des entreprises. La bande magné tique n’est peut-être pas parfaite, mais il n’en demeure pas moins qu’elle est capable de stocker plus de données par unité que tout autre type de média qui tente de la remplacer.

La question que peuvent se poser les entreprises est de se demander s’il est raisonnable d’investir dans une technologie de sauvegarde sur bandes magnétiques? Si dans un futur plus ou moins lointain on les remplacera par des supports magnéto-optiques, en attendant elles exploitent une technologie parfaitement éprouvée.

De nouveaux produits et de nouvelles technologies bande naissent en permanence, tel le balayage hélicoïdal, développé à l’origine pour l’acquisition audio et vidéo. L’exemple type du lecteur de bandes utilisant cette technologie est le Mammoth-2 (M2) d’Exabyte.

Les anciens lecteurs de bandes étaient des appareils linéaires. Ici, la bande assure tout le mouvement. Les têtes de lecture/écriture sont stationnaires et rendent ainsi ces supports de stockage incroyablement fiables, ce qui explique largement leur popularité. Les bandes linéaires ne sont jamais contraintes autours d’angles vifs ni pressées contre aucune surface, pas même les têtes de lecture/écriture.

Par exemple, une cartouche Quantum DLT (Digital Linear Tape) est donnée pour un million de passages (translations sur toute la longueur devant les têtes de lecture/écriture du lecteur de bandes), de telle sorte qu’il y a de fortes chances que le lecteur lui-même rende l’âme avant la bande magnétique! En fait, le plus grand risque avec les cartouches DLT est que le mécanisme complexe d’enroulement du lecteur finisse par vaciller, et bloque ainsi totalement le lecteur. Dans ce cas, la seule solution consiste à démonter le lecteur!

Dans le segment des bandes linéaires d’entreprises, l’acteur clé est actuellement Quantum, qui propose un lecteur DLT et un lecteur SuperDLTtape Quantum qui assure une compatibilité amont. Pour le SuperDLTtape, la concurrence vient de LTO (Linear Tape-Open), un consortium formé d’IBM, de Hewlett-Packard et de Seagate. LTO a indroduit une solution alternative au SuperDLTtape, l’ Ultrium.

Accès aux données essentielles : les plus grandes sources d’échec
Corruption des données à grande échelle

Les sociétés s’aperçoivent fréquemment que leurs données sur bande sont corrompues et ce seulement lorsqu’elles ont besoin d’accéder à leurs données stratégiques. Cela peut être dû à une erreur opérationnelle ou à une erreur sur la bande elle-même. Il n’est pas rare que l’écrasement accidentel des données soit lié à l’insertion ou au formatage partiel de la mauvaise bande.

Le simple fait de mettre en place une sauvegarde régulière ne signifie pas que les données soient saines. Elles peuvent l’être un jour mais pas le lendemain. Il faut vérifier les bandes afin d’être certains qu’elles soient disponibles en cas de désastre.

Site de secours ne rime pas (forcément) avec sécurité

Stocker les bandes dans un site de secours est l’une des conditions fondamentales d’un projet de sécurité. Cependant, ces sites ne sont pas à l’abri d’un désastre. La meilleure stratégie pour une sauvegarde consiste à utiliser de multiples sites de stockage éloignés le plus possible du site principal.

Problématique physique

Les bandes cassées, les lecteurs abîmés peuvent rendre l’accès aux données impossible. En l’absence d’une expertise interne, la meilleure option est de faire appel à un spécialiste de la récupération de données informatiques.

Vivre avec son temps

Les mises à jour de logiciel et systèmes commerciaux peuvent rendre les données sauvegardées inexploitables. Si le système vient d’être changé, il faut impérativement vérifier que les données sauvegardées sont encore accessibles, étant donné qu’elles ont pu être créées par d’autres applications ou serveurs.

source Dataligence

Dénomination Capacité en mode natif Capacité avec compression matérielle Taux de tranfert en mode natif Taux de tranfert en mode compressé Spécificités
DDS-C 2 Go 4 Go 30 Mo/min 60 Mo/min Pour PC de bureau
DDS-2 4 Go 8 Go 30 Mo/min 60 Mo/min Format courant
Travan 10 Go 20 Go 60 Mo/min 120 Mo/min En cours d’abandon
DDS-3 12 Go 24 Go 60 Mo/min 120 Mo/min Format courant
DLT 20/40 20 Go 40 Go 90 Mo/min 180 Mo/min HP
DDS-4 20 Go 40 Go 180 Mo/min 360 Mo/min Format courant
AIT 35 ou AIT-1 35 Go 70 Go 240 Mo/min 480 Mo/min HP , LaCie
DLT 40/80 40 Go 80 Go 330 Mo/ min 660 Mo/min HP , LaCie
AIT 50 ou AIT-2 50 Go 100 Go 360 Mo/min 720 Mo/min HP , LaCie
M2 AME SmartClean 60 Go 150 Go 720 Mo/min 1800 Mo/min Exabyte
Ultrium 1 et 2 100 / 200 Go 200 / 400 Go 900 Mo/min 1800 Mo/min HP, IBM, Seagate, Sony
SuperDLTtape/SDLT 110 Go 220 Go 660 Mo/min 1320 Mo/min Quantum, LaCie

Il est donc vital de bien comprendre l’utilisation et la valeur de chaque type de données. S’il n’est pas possible de classifier les données, il sera difficile de développer une stratégie garantissant un emploi approprié des différents dispositifs et supports tout au long du cycle de vie de l’information. Fort heureusement, il est facile de reconnaître quelles sont les données à archiver (i.e. contrats et avenants, devis, rapports d’incidents, courriers clients, factures, pour n’en citer que les plus évidentes).

Les données d’archive se distinguent en effet des autres types de données de plusieurs manières. En premier lieu, une fois créées, ces données ne seront plus ni modifiées ni complétées par qui que ce soit. Dans la plupart des cas, il est vital que ces archives demeurent inaltérées, ne serait-ce que pour démontrer l’authenticité du document auquel elles se réfèrent. Parallèlement, comme on les extraiera plus rarement, il n’est pas besoin de les conserver sur un système d’extraction particulièrement rapide et donc particulièrement onéreux.

L’archivage proprement dit, quant à lui, répond à deux principaux impératifs : d’une part, garantir l’archive contre un accès frauduleux ou un vol, d’autre part la préserver inchangée.

N’ayant hélas pas la place dans ce dossier d’examiner en détail les systèmes d’archivage (ce qui nécessiterait un guide à part entière), retenons simplement que ceux les médias optiques et magnéto optiques s’avèrent les mieux adaptés dans ce cadre. Toutefois, la loi énonce un certain nombre de pré requis (horodatage du document, signature de celui-ci, garantie de non modification et de l’intégrité des données) mais reste muette en termes de support. C’est pourquoi, ainsi que nous le mentionnions précédemment, certains systèmes d’ar chivage sur bande ou sur disque dur non réinscriptible peuvent être considérés comme des systèmes d’archivage (à charge toutefois pour l’entreprise d’en prouver la non modification, ce qui est bien plus simple avec un DVD-ROM ou DON UDO).

Type de support enregistrement WORM Destruction au niveau de l’enregistrement Identification du support
Disque dur Emulation Réécritures multiples Non disponible
Bande Emulation Non disponible Non disponible
DON UDO WORM physique Destruction physique ID support unique

En ce qui concerne concerne l’archivage des courriels, celui-ci permet de ré pondre à trois besoins :

  • réduire des volumes de messages stockés,
  • sécuriser d’informations devenues stratégiques,
  • retrouver facilement un ancien mail ancien, notamment pour des raisons commerciales ou légales.

Les motifs de conservation des e-mails sont en effet nombreux :

  • archiver, comme pour les autres documents importants de l’entreprise,
  • sécuriser, préserver ces documents des pannes assez fréquentes sur les ordinateurs personnels,
  • intégrer aux archives de l’entreprise des courriers qui peuvent désormais également engager sa responsabilité, puisque les courriers électroniques peuvent avoir valeur de preuve,
  • retrouver, à l’aide de logiciels de recherche, une information noyée au beau milieu de milliers de courriels.

Pour lutter contre l’augmentation des volumes, on peut utiliser plusieurs tactiques, non exclusives les unes des autres :

  • stocker physiquement un seul exemplaire de chaque document (80 % des documents sont des documents dupliqués). A ce niveau, le fait de remplacer les pièces attachées par des pointeurs divise généralement le volume par 5,
  • Définir l’importance de chaque e-mail et, éventuellement, sa date de suppression souhaitée. Purger automatiquement les systèmes suivant ces critères.

L’archivage de mail dans un système élaboré permet de disposer de procédures de recherche sophistiquées, sur les titres, les auteurs ou le contenu.

Cette recherche est grandement dépendante de la qualité d’indexation du document lors de l’archivage. Les systèmes les plus performants permettent des indexations automatiques poussées. De la qualité de l’indexation dépendra la puissance de la recherche.

Les systèmes d’archivage de mail utilisent des systèmes de conteneurs gérés suivant divers critères fixés par les utilisateurs, dont notamment :

  • la confidentialité et l’importance des courriers,
  • la « fraîcheur » de l’information ,
  • la nécessité de performance lors de la restitution.

Important : ce système permet de s’affranchir du casse-tête de la sauvegarde des fichiers d’e-mails (PST).