Pannes de messagerie : pistes pour une disponibilité totale
Transcription
Pannes de messagerie : pistes pour une disponibilité totale
IBM Global Technology Services Mai 2006 Pannes de messagerie : pistes pour une disponibilité totale Services de continuité et reprise des activités IBM Pannes de messagerie : pistes pour une disponibilité totale Page Résumé Table des matières 2 Résumé 3 Résultats de l’enquête : dysfonctionnements des messageries par type de cause Le courrier électronique est devenu le vecteur prédominant pour la communication d’entreprise, avec un impact pratiquement à tous les niveaux de toute organisation : communications entre dirigeants, employés, prospects, clients, fournisseurs, partenaires commerciaux, investisseurs et analystes. 7 Malgré d’importants investissements, les messageries restent défaillantes 8 Comment IBM vous aide à maintenir la continuité du courrier électronique Malgré les substantiels investissements que les entreprises consacrent aux systèmes de réplication, de mise en miroir ou de sauvegarde sur bande, les messageries restent défaillantes. S’il est largement reconnu que les incidents d’origine naturelle ou humaine peuvent provoquer des interruptions de service des messageries, de nouvelles données démontrent toutefois que ces messageries sont plus fréquemment affectées par les défaillances technologiques. L’un de nos partenaires prestataires de Services de continuité et reprise des activités IBM, MessageOne, a commandé une étude sur les interruptions et immobilisations des messageries» afin de déterminer la fréquence, la gravité et les causes des problèmes de messagerie rencontrés par des entreprises nord-américaines utilisant Microsoft Exchange, Lotus Notes et Novell GroupWise. Cette recherche montre que les messageries des entreprises sont sujettes à une multitude de défaillances potentielles − ce qui inclut les pannes de stockage, les mauvaises manipulations, les interruptions réseau, les corruptions de base de données ainsi que les virus. Les résultats de l’enquête montrent que sur toute période donnée de 12 mois et pour une quelconque entreprise donnée, une interruption de messagerie programmée peut survenir avec une probabilité de 14 % cependant que cette probabilité passe à 75 % dans le cas des interruptions non programmées. Cette étude analyse les principales causes de dysfonctionnement des messageries d’entreprises et propose des orientations préventives visant à réduire la probabilité d’interruptions non programmées des messageries. Pannes de messagerie : pistes pour une disponibilité totale Page Résultats de l’enquête : dysfonctionnements des messageries par type de cause Avec sa solution de reprise des messageries, IBM permet à des centaines d’entreprises servant des milliers d’utilisateurs de messageries de disposer d’une messagerie de secours hautement évolutive avec possibilité d’activation immédiate à la demande du client, ce qui aide à assurer des services e-mail ininterrompus en cas d’indisponibilité ou de défaillance de la messagerie principale de l’organisation. L’un de nos partenaires prestataires de Services de continuité et reprise des activités IBM, MessageOne, a commandé une étude sur les interruptions et immobilisations des messageries». Dans le cadre de cette étude, MessageOne a interrogé les clients sur les interruptions de messagerie survenues au cours d’une récente période de 30 semaines. Les entreprises ont été interrogées après activation du système de sauvegarde du courrier électronique, ce qui a permis d’obtenir des comptes rendus pertinents et fiables quant aux causes, aux impacts et à la durée des interruptions. Les résultats de cette enquête sont commentés dans le présent document. Fréquence et durée des interruptions des messageries Sur toute période donnée de 12 mois et pour une quelconque entreprise donnée, une interruption de messagerie programmée survient avec une probabilité de 14 % cependant que cette probabilité passe à 75 % dans le cas des interruptions non programmées. Les résultats de l’enquête montrent que sur toute période donnée de 12 mois et pour une quelconque entreprise donnée, une interruption de messagerie programmée survient avec une probabilité de 14 % cependant que cette probabilité passe à 75 % dans le cas des interruptions non programmées. Dans les entreprises couvertes par l’enquête, les interruptions ont duré entre 2 minutes minimum et 120 heures maximum, pour une durée d’interruption moyenne de 32,4 heures. Les durées d’interruption étaient majoritairement concentrées dans une plage comprise entre 4 et 24 heures (29 %) avec plus de 43 % des interruptions se prolongeant sur plus de 24 heures, ce qui peut exposer l’entreprise à de graves perturbations et préjudices. Pannes de messagerie : pistes pour une disponibilité totale Page Cependant que les incidents d’origine Relations de cause à effet des interruptions de messagerie - naturelle ne comptaient que pour 14 % Interruptions non programmées des interruptions de messagerie non Il est apparu qu’une large majorité des interruptions de messagerie étaient consécutives à des événements imprévus, dont la plupart relevaient de défaillances technologiques. Sur ces défaillances, 35 % étaient dues à une panne matérielle du serveur (18,1 heures d’interruption en moyenne), 19 % à une perte de connexion, (moyenne : 27,4 heures), 16 % à une indisponibilité du stockage (moyenne : 25,5 heures) et 16 % à une corruption de la base de données (moyenne : 9,0 heures). La plupart de ces défaillances − et plus spécialement les corruptions de base de données et les pannes affectant le stockage − sont difficiles à prévenir. Même en utilisant des solutions coûteuses de mise en miroir et de sauvegarde par réplication, les corruptions de données et incidents affectant le stockage se propagent bien souvent vers le miroir ou vers le serveur de sauvegarde par réplication. En règle générale, ces pannes conduisent à des interruptions prolongées. En effet, les entreprises recourent à des sauvegardes incrémentales sur bande et il est donc nécessaire de localiser la dernière programmées, le temps de panne moyen consécutif à ces incidents était supérieur à 60 heures, ce qui signifie qu’elles peuvent avoir de sérieuses répercussions sur les entreprises. Pannes de messagerie : pistes pour une disponibilité totale Page sauvegarde effectuée avant corruption. Ainsi qu’il ressort de l’enquête, cependant que les incidents d’origine naturelle ne comptaient que pour 14 % des interruptions de messagerie non programmées, le temps de panne moyen consécutif à ces incidents était supérieur à 60 heures, ce qui signifie qu’elles peuvent avoir de sérieuses répercussions sur les entreprises. Pannes du réseau de stockage De nombreuses entreprises ont mis en place un réseau de stockage ou SAN (storage area network) afin d’optimiser la disponibilité de leurs services de messagerie. Tout en permettant un stockage hautement redondant assurant une haute disponibilité des données, ce type de réseau complexifie l’infrastructure de messagerie. La conception et la mise en œuvre d’une infrastructure de réseau de stockage doivent être optimisées en permanence pour pouvoir assurer des performances fiables. S’agissant des clients soumis à l’enquête, il est apparu que certains problèmes étaient récurrents : mauvaise configuration des numéros d’unité logique, non-réactualisation des pilotes et administration du matériel par des équipes extérieures au groupe utilisateur de la messagerie. Dans certains cas, ces erreurs conduisaient à de sérieuses corruptions des données avec réplication vers les messageries utilisées pour les sauvegardes. Pannes matérielles du serveur Depuis la panne catastrophique de l’unité de disque jusqu’au problème de mémoire vive, plus d’un quart des interruptions relevant du client peuvent être attribuées à une panne matérielle. De multiples défaillances liées au matériel ont contribué aux interruptions pour les clients participant à l’enquête. Depuis la panne catastrophique de l’unité de disque jusqu’au problème de mémoire vive, plus d’un quart des interruptions relevant du client peuvent être attribuées à une panne matérielle. Dans un grand nombre de ces situations, le client avait déjà pris des mesures visant à limiter les problèmes dus au matériel en mettant en place des serveurs et des unités de disques redondants. Quelques remarques : • Bien souvent, les serveurs de messagerie des succursales n’assuraient pas une redondance aussi parfaite que les serveurs installés dans le Data Center. • Les interruptions liées au serveur étaient le plus souvent dues à des matériels nouveaux ou récemment mis à niveau. • Dans un certain nombre de cas, les problèmes de dimensionnement du serveur ont contribué à la dégradation des performances ou aux interruptions. Pannes de messagerie : pistes pour une disponibilité totale Page Corruption de la base de données Les immobilisations dues à une corruption de la base de données constituent un risque bien connu des administrateurs de messagerie. Si l’on considère que le client type cumule 0,75 To ou plus de messages, cette immobilisation peut avoir de sérieuses conséquences. Il y a un risque dont on parle moins, c’est celui d’une immobilisation liée à la corruption du service AD (Active Directory) de Microsoft. Plusieurs clients ont fait les frais de lourdes immobilisations à l’échelle globale du système suite à une corruption de ce type. Dans tous les cas, les attributs ou données spécifiques Exchange étaient corrompus dans une mesure propre à perturber les communications − et dans certains de ces cas, l’identification du problème, les réparations et la reprise ont imposé plus de 48 heures d’interruption. Pertes de connexion La perte de connexion résulte d’une interruption de service du réseau local (LAN) ou du réseau inter-entreprise (WAN), les utilisateurs ne pouvant plus accéder au serveur bien que celui-ci soit opérationnel. Le problème peut être dû à une défaillance du concentrateur, du commutateur ou du routeur ; il peut être également dû à la rupture ou à la détérioration d’un câble ou d’une fibre suite à diverses circonstances − travaux de construction (excavatrice) ou endommagement au cours de déplacements ou d’interventions de maintenance, par exemple. Dans le cas d’une entreprise impliquée dans l’enquête, des travaux de construction au bas de la rue ont provoqué la perte simultanée des connexions WAN principales et secondaires mises à disposition par deux fournisseurs distincts. Les causes des interruptions de messagerie - Interruptions programmées Les résultats de l’enquête ont montré que les événements prévus comptaient pour 14,3 % des interruptions de messagerie survenant au cours d’une quelconque période de 12 mois. En moyenne, les interruptions programmées durent 36,1 heures. Les résultats de l’enquête ont montré que les événements planifiés comptaient pour 14,3 % des interruptions de messagerie survenant au cours d’une quelconque période de 12 mois. En moyenne, les interruptions programmées durent 36,1 heures. Parmi les différentes raisons pouvant conduire à une interruption programmée : mise à niveau ou migration de la plateforme de messagerie, déménagement du centre de données ou des bureaux, coupure programmée du courant, maintenance du système, gestion des correctifs nécessaires ou essais de reprise après incident. Par exemple, des fenêtres de maintenance sont nécessaires si l’on souhaite assurer en permanence une mise au point ou une correction appropriée des serveurs. Dans plusieurs cas, les clients ont dû arrêter les serveurs pour effectuer des tâches de maintenance de longue durée (contrôle d’intégrité sur une base de données Microsoft Exchange, par exemple), pour remplacer des composants matériels, pour régler des problèmes de performances ou pour parer à des interruptions imminentes. Dans certains cas, ces arrêts étaient programmés longtemps à l’avance et dans d’autres cas, la nécessité de régler des problèmes ou d’éviter certains risques imposait une intervention rapide. Pannes de messagerie : pistes pour une disponibilité totale Page Malgré d’importants investissements, les messageries restent défaillantes Chaque jour, un nombre croissant d’entreprises concluent que la messagerie est une application critique qu’il convient de prendre en compte dans le plan de continuité des activités. D’une façon générale, la continuité des activités liées à la messagerie et les plans de reprise après incident passent par deux approches : la sauvegarde sur bande d’une part, les solutions de réplication et de mise en miroir d’autre part. Si la sauvegarde sur bande constitue le moyen le plus économique pour sauvegarder des données, elle n’assure toutefois pas une continuité du courrier électronique − on est ici limité à une Si la sauvegarde sur bande constitue le moyen le plus économique pour sauvegarder des données, elle n’assure toutefois pas une continuité du courrier électronique − on est ici limité à une reprise après interruption de longue durée, avec risque de perte de données. reprise après interruption de longue durée, avec risque de perte de données. Quant aux solutions classiques de réplication et de mise en miroir, elles se justifient tant qu’il s’agit de reprise après incident ou de planification de la continuité des activités, mais dans nombre de situations courantes, la réplication ne permet pas d’assurer une haute disponibilité. Messagerie haute disponibilité : les principaux points de défaillance La sauvegarde sur bande et les solutions classiques de réplication et de mise en miroir présentent de nombreux Sur la base des données de recherche recueillies, il apparaît que la sauvegarde sur bande et les solutions classiques de réplication et de mise en miroir présentent de nombreux points de défaillance. inconvénients. Point de défaillance 1 : corruption des bases de données répliquées La corruption d’une base de données peut provoquer la déconnexion d’un serveur principal. Dans la plupart des cas, le logiciel de réplication assurant le transfert des données octet par octet va diriger une copie des données corrompues vers le serveur de sauvegarde et celui-ci sera alors corrompu à son tour. En principe, la corruption est un processus de dégradation qui s’opère lentement et peut obliger les administrateurs à restaurer un grand nombre de bandes de sauvegarde avant d’en trouver une qui soit antérieure à la corruption. Point de défaillance 2 : dépendance vis-à-vis d’une unique plateforme À un moment où la plupart des organisations s’appuient sur des messageries de sauvegarde, ces systèmes secondaires résident généralement sur la même plateforme de messagerie que le système principal. Dans les entreprises utilisant Microsoft Exchange, par exemple, un serveur de messagerie principal et un serveur de messagerie de sauvegarde pourront exécuter la même version de ce logiciel. Or, cette dépendance vis-à-vis d’une unique plateforme crée un point de défaillance qu’un virus, un ver ou un bogue va pouvoir exploiter pour corrompre simultanément le système principal et le système de sauvegarde. Pannes de messagerie : pistes pour une disponibilité totale Page Point de défaillance 3 : complexité du réseau de stockage (SAN) Plus ils se complexifient, plus les systèmes demandent l’attention d’équipes techniques expérimentées et par conséquent peu disponibles. Par exemple, une entreprise a acquis un SAN relativement coûteux et l’a configuré dans l’optique d’assurer une réplication de la base de données Exchange : une configuration complexe a ici provoqué une défaillance totale du SAN entraînant deux jours et demi d’interruption du courrier électronique. Toujours plus complexe et utilisé bien souvent pour le stockage principal et la sauvegarde des données, le matériel SAN tend à devenir un point sensible pour les messageries des entreprises. Point de défaillance 4 : dépendance vis-à-vis des bandes La sauvegarde sur bande permet cela et seulement cela : «sauvegarder». En général, une organisation recourt à la sauvegarde sur bande pour sauvegarder des données − fichiers, bases de données, applications... − qui sont régulièrement utilisées / créées par les employés. Cette méthode est de loin la moins onéreuse et la moins complexe dont on dispose pour sauvegarder des données. Si la sauvegarde sur bande est inadaptée en tant que solution de continuité et de reprise de la messagerie, c’est parce que la reprise des données de l’entreprise à partir d’une bande prend systématiquement entre plusieurs heures et plusieurs jours. En cas d’incident, qu’il soit d’origine naturelle, humaine ou technologique, le maintien des lignes de communication dans un état opérationnel est crucial pour la reprise. Dès lors qu’elle est appliquée au courrier électronique, la sauvegarde sur bande constitue une option trop lente pour satisfaire à des exigences raisonnables en termes de reprise. Comment IBM vous aide à maintenir la continuité du courrier électronique IBM E-mail Recovery Solution Overview La messagerie est devenue une application critique, aussi indispensable que l’électricité ou le téléphone. En fait, selon une enquête du groupe META, 80 % des utilisateurs de messagerie d’entreprise sont convaincus que la messagerie leur est beaucoup plus utile que le téléphone pour les communications de l’entreprise. À l’heure actuelle, 90 % de ces communications passent par le courrier électronique. La solution de reprise des messageries proposée par IBM est à ce jour la seule solution du marché qui soit abordable et affranchisse des déficiences propres à la sauvegarde sur bande ou aux solutions classiques de mise en miroir et de réplication. Cette solution, consiste à mettre à disposition une messagerie Pannes de messagerie : pistes pour une disponibilité totale Page Notre solution vous aide à maintenir la continuité du courrier électronique à toute heure de la journée, 365 jours par an. de secours et à en avertir l’ensemble des employés concernés. Cette solution est elle même hébergée par les services de continuité d’IBM. Elle profite de caractéristiques techniques d’un niveau exceptionnel : alimentation redondante, serveurs redondants, réseaux Internet, assistance fournie par une équipe de spécialistes 24 heures sur 24. La solution IBM vous aide à maintenir la continuité du courrier électronique 365 jours par an et 24/24. Parmi les atouts de la solution IBM de reprise des messageries : • Continuité du courrier électronique 24 heures sur 24, 365 jours par an • 10 % du coût des solutions de réplication et haute disponibilité classiques • Assure aux employés une continuité du courrier électronique avec sécurité renforcée • Peut diriger des notifications précieuses vers les téléphones cellulaires, les dispositifs BlackBerry®, les autres comptes de courrier électronique personnels, etc. • Peut être déployée sur tout le périmètre d’une entreprise internationale en une seule journée • Se prête facilement à des tests sur une base mensuelle ou trimestrielle • Élaborée sur Linux de façon à exclure le point de défaillance lié à l’utilisation d’une plateforme unique © Copyright IBM Corporation 2006 IBM Global Technology Services Route 100 Somers, N.Y. 10589 U.S.A. Imprimé aux États-Unis 05-06 Tous droits réservés IBM se réserve le droit de modifier sans préavis les spécifications ou toute autre information sur les produits. Le présent document peut comporter des inexactitudes techniques ou des erreurs typographiques. Les références à certains produits et services IBM dans ce document n’impliquent pas qu’IBM envisage de mettre ces produits ou services à disposition dans d’autres pays. IBM COMMUNIQUE CE DOCUMENT «EN L’ÉTAT» SANS GARANTIE OU CONDITION D’AUCUNE SORTE, QUE CE SOIT DE FAÇON EXPLICITE OU IMPLICITE, NOTAMMENT EN CE QUI CONCERNE LES GARANTIES OU CONDITIONS IMPLICITES QUANT À VALEUR MARCHANDE OU À L’ADÉQUATION À UN USAGE PARTICULIER. Certaines juridictions rejettent toute clause limitative portant sur les garanties explicites ou implicites dans le cadre de certaines transactions et de ce fait, la déclaration ci-dessus peut ne pas vous être applicable. Les éléments portés dans ce document concernant les tiers sont basés sur les informations obtenues auprès de ces tiers. Aucune démarche n’a été entreprise pour vérifier l’exactitude de ces informations de façon indépendante. Le présent document ne constitue pas une recommandation publicitaire d’un quelconque produit ou service tiers par IBM, que ce soit de façon explicite ou implicite. IBM et le logo IBM sont des marques d’International Business Machines Corporation aux Etats-Unis et/ou dans d’autres pays. Les autres noms de société, de produit ou de service peuvent être des marques ou des marques de service de tiers. Les références à certains produits et services IBM dans ce document n’impliquent pas qu’IBM envisage de mettre ces produits ou services à disposition dans d’autres pays. G565-1457-FRA-00