Pannes de messagerie : pistes pour une disponibilité totale

Transcription

Pannes de messagerie : pistes pour une disponibilité totale
IBM Global Technology Services
Mai 2006
Pannes de messagerie :
pistes pour une disponibilité totale
Services de continuité et reprise des activités IBM
Pannes de messagerie : pistes pour une disponibilité totale
Page Résumé
Table des matières
2 Résumé
3 Résultats de l’enquête :
dysfonctionnements des
messageries par type de cause
Le courrier électronique est devenu le vecteur prédominant pour
la communication d’entreprise, avec un impact pratiquement à tous
les niveaux de toute organisation : communications entre dirigeants,
employés, prospects, clients, fournisseurs, partenaires commerciaux,
investisseurs et analystes.
7 Malgré d’importants
investissements, les messageries
restent défaillantes
8 Comment IBM vous aide à maintenir
la continuité du courrier électronique
Malgré les substantiels investissements que les entreprises consacrent
aux systèmes de réplication, de mise en miroir ou de sauvegarde sur
bande, les messageries restent défaillantes. S’il est largement reconnu
que les incidents d’origine naturelle ou humaine peuvent provoquer des
interruptions de service des messageries, de nouvelles données démontrent
toutefois que ces messageries sont plus fréquemment affectées par les
défaillances technologiques.
L’un de nos partenaires prestataires de Services de continuité et
reprise des activités IBM, MessageOne, a commandé une étude sur les
interruptions et immobilisations des messageries» afin de déterminer la
fréquence, la gravité et les causes des problèmes de messagerie rencontrés
par des entreprises nord-américaines utilisant Microsoft Exchange, Lotus
Notes et Novell GroupWise. Cette recherche montre que les messageries
des entreprises sont sujettes à une multitude de défaillances potentielles
− ce qui inclut les pannes de stockage, les mauvaises manipulations, les
interruptions réseau, les corruptions de base de données ainsi que les
virus. Les résultats de l’enquête montrent que sur toute période donnée
de 12 mois et pour une quelconque entreprise donnée, une interruption
de messagerie programmée peut survenir avec une probabilité de 14 %
cependant que cette probabilité passe à 75 % dans le cas des interruptions
non programmées.
Cette étude analyse les principales causes de dysfonctionnement des
messageries d’entreprises et propose des orientations préventives visant
à réduire la probabilité d’interruptions non programmées des messageries.
Pannes de messagerie : pistes pour une disponibilité totale
Page Résultats de l’enquête :
dysfonctionnements des messageries par type de cause
Avec sa solution de reprise des messageries, IBM permet à des centaines
d’entreprises servant des milliers d’utilisateurs de messageries de disposer d’une
messagerie de secours hautement évolutive avec possibilité d’activation immédiate
à la demande du client, ce qui aide à assurer des services e-mail ininterrompus en
cas d’indisponibilité ou de défaillance de la messagerie principale de l’organisation.
L’un de nos partenaires prestataires de Services de continuité et reprise des
activités IBM, MessageOne, a commandé une étude sur les interruptions et
immobilisations des messageries». Dans le cadre de cette étude, MessageOne
a interrogé les clients sur les interruptions de messagerie survenues au cours
d’une récente période de 30 semaines. Les entreprises ont été interrogées après
activation du système de sauvegarde du courrier électronique, ce qui a permis
d’obtenir des comptes rendus pertinents et fiables quant aux causes, aux impacts
et à la durée des interruptions. Les résultats de cette enquête sont commentés
dans le présent document.
Fréquence et durée des interruptions des messageries
Sur toute période donnée de 12 mois et pour une quelconque entreprise
donnée, une interruption de messagerie
programmée survient avec une
probabilité de 14 % cependant que cette
probabilité passe à 75 % dans le cas des interruptions non programmées.
Les résultats de l’enquête montrent que sur toute période donnée de 12 mois
et pour une quelconque entreprise donnée, une interruption de messagerie
programmée survient avec une probabilité de 14 % cependant que cette
probabilité passe à 75 % dans le cas des interruptions non programmées.
Dans les entreprises couvertes par l’enquête, les interruptions ont duré entre
2 minutes minimum et 120 heures maximum, pour une durée d’interruption
moyenne de 32,4 heures. Les durées d’interruption étaient majoritairement
concentrées dans une plage comprise entre 4 et 24 heures (29 %) avec plus
de 43 % des interruptions se prolongeant sur plus de 24 heures, ce qui peut
exposer l’entreprise à de graves perturbations et préjudices.
Pannes de messagerie : pistes pour une disponibilité totale
Page Cependant que les incidents d’origine
Relations de cause à effet des interruptions de messagerie -
naturelle ne comptaient que pour 14 %
Interruptions non programmées
des interruptions de messagerie non
Il est apparu qu’une large majorité des interruptions de messagerie étaient
consécutives à des événements imprévus, dont la plupart relevaient de
défaillances technologiques. Sur ces défaillances, 35 % étaient dues à une panne
matérielle du serveur (18,1 heures d’interruption en moyenne), 19 % à une perte
de connexion, (moyenne : 27,4 heures), 16 % à une indisponibilité du stockage
(moyenne : 25,5 heures) et 16 % à une corruption de la base de données
(moyenne : 9,0 heures). La plupart de ces défaillances − et plus spécialement
les corruptions de base de données et les pannes affectant le stockage − sont
difficiles à prévenir. Même en utilisant des solutions coûteuses de mise en miroir
et de sauvegarde par réplication, les corruptions de données et incidents
affectant le stockage se propagent bien souvent vers le miroir ou vers le serveur
de sauvegarde par réplication. En règle générale, ces pannes conduisent à des
interruptions prolongées. En effet, les entreprises recourent à des sauvegardes
incrémentales sur bande et il est donc nécessaire de localiser la dernière
programmées, le temps de panne moyen
consécutif à ces incidents était
supérieur à 60 heures, ce qui signifie
qu’elles peuvent avoir de sérieuses
répercussions sur les entreprises.
Pannes de messagerie : pistes pour une disponibilité totale
Page sauvegarde effectuée avant corruption. Ainsi qu’il ressort de l’enquête,
cependant que les incidents d’origine naturelle ne comptaient que pour 14 %
des interruptions de messagerie non programmées, le temps de panne moyen
consécutif à ces incidents était supérieur à 60 heures, ce qui signifie qu’elles
peuvent avoir de sérieuses répercussions sur les entreprises.
Pannes du réseau de stockage
De nombreuses entreprises ont mis en place un réseau de stockage ou SAN
(storage area network) afin d’optimiser la disponibilité de leurs services de
messagerie. Tout en permettant un stockage hautement redondant assurant une
haute disponibilité des données, ce type de réseau complexifie l’infrastructure
de messagerie. La conception et la mise en œuvre d’une infrastructure de réseau
de stockage doivent être optimisées en permanence pour pouvoir assurer des
performances fiables. S’agissant des clients soumis à l’enquête, il est apparu que
certains problèmes étaient récurrents : mauvaise configuration des numéros
d’unité logique, non-réactualisation des pilotes et administration du matériel
par des équipes extérieures au groupe utilisateur de la messagerie. Dans
certains cas, ces erreurs conduisaient à de sérieuses corruptions des données
avec réplication vers les messageries utilisées pour les sauvegardes.
Pannes matérielles du serveur
Depuis la panne catastrophique de
l’unité de disque jusqu’au problème de mémoire vive, plus d’un quart des
interruptions relevant du client peuvent
être attribuées à une panne matérielle.
De multiples défaillances liées au matériel ont contribué aux interruptions pour
les clients participant à l’enquête. Depuis la panne catastrophique de l’unité de
disque jusqu’au problème de mémoire vive, plus d’un quart des interruptions
relevant du client peuvent être attribuées à une panne matérielle. Dans un grand
nombre de ces situations, le client avait déjà pris des mesures visant à limiter
les problèmes dus au matériel en mettant en place des serveurs et des unités de
disques redondants.
Quelques remarques :
• Bien souvent, les serveurs de messagerie des succursales n’assuraient
pas une redondance aussi parfaite que les serveurs installés dans le
Data Center.
• Les interruptions liées au serveur étaient le plus souvent dues à des matériels
nouveaux ou récemment mis à niveau.
• Dans un certain nombre de cas, les problèmes de dimensionnement
du serveur ont contribué à la dégradation des performances ou aux
interruptions.
Pannes de messagerie : pistes pour une disponibilité totale
Page Corruption de la base de données
Les immobilisations dues à une corruption de la base de données constituent
un risque bien connu des administrateurs de messagerie. Si l’on considère que
le client type cumule 0,75 To ou plus de messages, cette immobilisation peut
avoir de sérieuses conséquences. Il y a un risque dont on parle moins, c’est celui
d’une immobilisation liée à la corruption du service AD (Active Directory)
de Microsoft. Plusieurs clients ont fait les frais de lourdes immobilisations à
l’échelle globale du système suite à une corruption de ce type. Dans tous les cas,
les attributs ou données spécifiques Exchange étaient corrompus dans une
mesure propre à perturber les communications − et dans certains de ces cas,
l’identification du problème, les réparations et la reprise ont imposé plus de
48 heures d’interruption.
Pertes de connexion
La perte de connexion résulte d’une interruption de service du réseau local
(LAN) ou du réseau inter-entreprise (WAN), les utilisateurs ne pouvant plus
accéder au serveur bien que celui-ci soit opérationnel. Le problème peut être
dû à une défaillance du concentrateur, du commutateur ou du routeur ; il
peut être également dû à la rupture ou à la détérioration d’un câble ou d’une
fibre suite à diverses circonstances − travaux de construction (excavatrice) ou
endommagement au cours de déplacements ou d’interventions de maintenance,
par exemple. Dans le cas d’une entreprise impliquée dans l’enquête, des travaux
de construction au bas de la rue ont provoqué la perte simultanée des connexions
WAN principales et secondaires mises à disposition par deux fournisseurs
distincts.
Les causes des interruptions de messagerie - Interruptions programmées
Les résultats de l’enquête ont montré
que les événements prévus comptaient
pour 14,3 % des interruptions de
messagerie survenant au cours d’une
quelconque période de 12 mois. En moyenne, les interruptions
programmées durent 36,1 heures.
Les résultats de l’enquête ont montré que les événements planifiés comptaient
pour 14,3 % des interruptions de messagerie survenant au cours d’une
quelconque période de 12 mois. En moyenne, les interruptions programmées
durent 36,1 heures. Parmi les différentes raisons pouvant conduire à une
interruption programmée : mise à niveau ou migration de la plateforme de
messagerie, déménagement du centre de données ou des bureaux, coupure
programmée du courant, maintenance du système, gestion des correctifs
nécessaires ou essais de reprise après incident. Par exemple, des fenêtres de
maintenance sont nécessaires si l’on souhaite assurer en permanence une mise
au point ou une correction appropriée des serveurs. Dans plusieurs cas, les
clients ont dû arrêter les serveurs pour effectuer des tâches de maintenance de
longue durée (contrôle d’intégrité sur une base de données Microsoft Exchange,
par exemple), pour remplacer des composants matériels, pour régler des
problèmes de performances ou pour parer à des interruptions imminentes.
Dans certains cas, ces arrêts étaient programmés longtemps à l’avance et dans
d’autres cas, la nécessité de régler des problèmes ou d’éviter certains risques
imposait une intervention rapide.
Pannes de messagerie : pistes pour une disponibilité totale
Page Malgré d’importants investissements, les messageries restent défaillantes
Chaque jour, un nombre croissant d’entreprises concluent que la messagerie
est une application critique qu’il convient de prendre en compte dans le plan de
continuité des activités. D’une façon générale, la continuité des activités liées à la
messagerie et les plans de reprise après incident passent par deux approches : la
sauvegarde sur bande d’une part, les solutions de réplication et de mise en miroir
d’autre part.
Si la sauvegarde sur bande constitue le moyen le plus économique pour
sauvegarder des données, elle n’assure
toutefois pas une continuité du courrier
électronique − on est ici limité à une
Si la sauvegarde sur bande constitue le moyen le plus économique pour
sauvegarder des données, elle n’assure toutefois pas une continuité du courrier
électronique − on est ici limité à une reprise après interruption de longue durée,
avec risque de perte de données.
reprise après interruption de longue
durée, avec risque de perte de données.
Quant aux solutions classiques de réplication et de mise en miroir, elles se
justifient tant qu’il s’agit de reprise après incident ou de planification de la
continuité des activités, mais dans nombre de situations courantes, la réplication
ne permet pas d’assurer une haute disponibilité.
Messagerie haute disponibilité : les principaux points de défaillance
La sauvegarde sur bande et les solutions
classiques de réplication et de mise en miroir présentent de nombreux
Sur la base des données de recherche recueillies, il apparaît que la sauvegarde
sur bande et les solutions classiques de réplication et de mise en miroir
présentent de nombreux points de défaillance.
inconvénients.
Point de défaillance 1 : corruption des bases de données répliquées
La corruption d’une base de données peut provoquer la déconnexion d’un
serveur principal. Dans la plupart des cas, le logiciel de réplication assurant
le transfert des données octet par octet va diriger une copie des données
corrompues vers le serveur de sauvegarde et celui-ci sera alors corrompu
à son tour. En principe, la corruption est un processus de dégradation qui
s’opère lentement et peut obliger les administrateurs à restaurer un grand
nombre de bandes de sauvegarde avant d’en trouver une qui soit antérieure
à la corruption.
Point de défaillance 2 : dépendance vis-à-vis d’une unique plateforme
À un moment où la plupart des organisations s’appuient sur des messageries
de sauvegarde, ces systèmes secondaires résident généralement sur la même
plateforme de messagerie que le système principal. Dans les entreprises utilisant
Microsoft Exchange, par exemple, un serveur de messagerie principal et un
serveur de messagerie de sauvegarde pourront exécuter la même version de ce
logiciel. Or, cette dépendance vis-à-vis d’une unique plateforme crée un point de
défaillance qu’un virus, un ver ou un bogue va pouvoir exploiter pour corrompre
simultanément le système principal et le système de sauvegarde.
Pannes de messagerie : pistes pour une disponibilité totale
Page Point de défaillance 3 : complexité du réseau de stockage (SAN)
Plus ils se complexifient, plus les systèmes demandent l’attention d’équipes
techniques expérimentées et par conséquent peu disponibles. Par exemple, une
entreprise a acquis un SAN relativement coûteux et l’a configuré dans l’optique
d’assurer une réplication de la base de données Exchange : une configuration
complexe a ici provoqué une défaillance totale du SAN entraînant deux jours et
demi d’interruption du courrier électronique. Toujours plus complexe et utilisé
bien souvent pour le stockage principal et la sauvegarde des données, le matériel
SAN tend à devenir un point sensible pour les messageries des entreprises.
Point de défaillance 4 : dépendance vis-à-vis des bandes
La sauvegarde sur bande permet cela et seulement cela : «sauvegarder».
En général, une organisation recourt à la sauvegarde sur bande pour
sauvegarder des données − fichiers, bases de données, applications... − qui
sont régulièrement utilisées / créées par les employés. Cette méthode est de
loin la moins onéreuse et la moins complexe dont on dispose pour sauvegarder
des données. Si la sauvegarde sur bande est inadaptée en tant que solution de
continuité et de reprise de la messagerie, c’est parce que la reprise des données
de l’entreprise à partir d’une bande prend systématiquement entre plusieurs
heures et plusieurs jours. En cas d’incident, qu’il soit d’origine naturelle,
humaine ou technologique, le maintien des lignes de communication dans un
état opérationnel est crucial pour la reprise. Dès lors qu’elle est appliquée au
courrier électronique, la sauvegarde sur bande constitue une option trop lente
pour satisfaire à des exigences raisonnables en termes de reprise.
Comment IBM vous aide à maintenir la continuité
du courrier électronique
IBM E-mail Recovery Solution Overview
La messagerie est devenue une application critique, aussi indispensable que
l’électricité ou le téléphone. En fait, selon une enquête du groupe META, 80 %
des utilisateurs de messagerie d’entreprise sont convaincus que la messagerie
leur est beaucoup plus utile que le téléphone pour les communications de
l’entreprise. À l’heure actuelle, 90 % de ces communications passent par le
courrier électronique.
La solution de reprise des messageries proposée par IBM est à ce jour la seule
solution du marché qui soit abordable et affranchisse des déficiences propres
à la sauvegarde sur bande ou aux solutions classiques de mise en miroir et de
réplication. Cette solution, consiste à mettre à disposition une messagerie
Pannes de messagerie : pistes pour une disponibilité totale
Page Notre solution vous aide à maintenir la continuité du courrier électronique à toute heure de la journée, 365 jours par an.
de secours et à en avertir l’ensemble des employés concernés. Cette solution
est elle même hébergée par les services de continuité d’IBM. Elle profite
de caractéristiques techniques d’un niveau exceptionnel : alimentation
redondante, serveurs redondants, réseaux Internet, assistance fournie par une
équipe de spécialistes 24 heures sur 24. La solution IBM vous aide à maintenir
la continuité du courrier électronique 365 jours par an et 24/24.
Parmi les atouts de la solution IBM de reprise des messageries :
• Continuité du courrier électronique 24 heures sur 24, 365 jours par an
• 10 % du coût des solutions de réplication et haute disponibilité classiques
• Assure aux employés une continuité du courrier électronique avec
sécurité renforcée
• Peut diriger des notifications précieuses vers les téléphones cellulaires,
les dispositifs BlackBerry®, les autres comptes de courrier électronique
personnels, etc.
• Peut être déployée sur tout le périmètre d’une entreprise internationale
en une seule journée
• Se prête facilement à des tests sur une base mensuelle ou trimestrielle
• Élaborée sur Linux de façon à exclure le point de défaillance lié
à l’utilisation d’une plateforme unique
© Copyright IBM Corporation 2006
IBM Global Technology Services
Route 100
Somers, N.Y. 10589
U.S.A.
Imprimé aux États-Unis
05-06
Tous droits réservés
IBM se réserve le droit de modifier sans préavis les
spécifications ou toute autre information sur les produits.
Le présent document peut comporter des inexactitudes
techniques ou des erreurs typographiques. Les références à certains produits et services IBM dans ce document n’impliquent pas qu’IBM envisage
de mettre ces produits ou services à disposition dans
d’autres pays. IBM COMMUNIQUE CE DOCUMENT «EN L’ÉTAT» SANS GARANTIE OU CONDITION
D’AUCUNE SORTE, QUE CE SOIT DE FAÇON EXPLICITE
OU IMPLICITE, NOTAMMENT EN CE QUI CONCERNE
LES GARANTIES OU CONDITIONS IMPLICITES QUANT
À VALEUR MARCHANDE OU À L’ADÉQUATION À UN
USAGE PARTICULIER. Certaines juridictions rejettent
toute clause limitative portant sur les garanties explicites
ou implicites dans le cadre de certaines transactions et de ce fait, la déclaration ci-dessus peut ne pas vous
être applicable.
Les éléments portés dans ce document concernant les
tiers sont basés sur les informations obtenues auprès
de ces tiers. Aucune démarche n’a été entreprise
pour vérifier l’exactitude de ces informations de façon
indépendante. Le présent document ne constitue pas
une recommandation publicitaire d’un quelconque
produit ou service tiers par IBM, que ce soit de façon
explicite ou implicite.
IBM et le logo IBM sont des marques d’International
Business Machines Corporation aux Etats-Unis et/ou
dans d’autres pays.
Les autres noms de société, de produit ou de service
peuvent être des marques ou des marques de service
de tiers.
Les références à certains produits et services IBM dans ce document n’impliquent pas qu’IBM envisage
de mettre ces produits ou services à disposition dans
d’autres pays.
G565-1457-FRA-00