LIVRE BLANC La promesse du stockage virtuel : quand

Transcription

LIVRE BLANC La promesse du stockage virtuel : quand
LIVRE BLANC
La promesse du stockage virtuel : quand l’informatique
devient un service
Sponsorisé par : EMC
Benjamin Woo
Mai 2010
Siège Social : 5 Speen Street Framingham, MA 01701 États‐Unis P.508.872.8200 F.508.935.4015 www.idc.com RÉSUMÉ ANALYTIQUE
Les technologies de l’information (TI) sont de plus en plus considérées comme
un service, ce qui nécessite, entre autres, une infrastructure virtualisée, plus
flexible, où le stockage virtuel complète les serveurs virtuels afin de libérer les
informations de leur support physique. Il est maintenant établi que les serveurs
virtuels apportent réactivité, efficacité et de nombreux autres avantages.
La stratégie d’EMC en matière de stockage virtuel, et son exécution initiale
(VPLEX), étendent au stockage de nombreux avantages inhérents aux serveurs
et au traitement.
Au cœur du stockage virtuel se trouve la cohérence de cache distribué d’EMC,
qui intègre la connaissance des données de toutes les plates-formes (locale,
moyenne distance, mondiale et cloud privé). Il est possible de répartir
l’information à différentes distances et de fédérer ainsi le stockage. les
entreprises n’ont plus à anticiper chaque problème et à prépositionner ailleurs
toutes les données. le stockage virtuel garantit une infrastructure plus dynamique
et flexible qui offre généralement de profondes améliorations pour le département
informatique et toute l’entreprise.
PRÉSENTATION DE LA SITUATION
Lorsque le concept d’abstraction des ressources informatiques est devenu une
réalité, les professionnels du domaine ont compris que la virtualisation pouvait
s’appliquer à de nombreuses ressources informatiques, du matériel aux
systèmes d’exploitation en passant par les applications. L’information était
cependant presque toujours liée au support de stockage physique. Aujourd’hui, il
est possible de fédérer les données à distance afin de les abstraire. Dans un tel
contexte, les données peuvent être stockées sur de nombreux emplacements
physiques tout en restant visibles et accessibles en tant que ressource unique de
stockage virtuel au sein de la plate-forme informatique.
La fédération étend la métaphore serveur/traitement au stockage. Les données
sont abstraites à partir du matériel physique, ce qui fait perdre aux notions de
temps, de lieu et de distance toute pertinence pour les utilisateurs. Plus important
encore, l’alliance entre la virtualisation et la fédération permet au département
informatique d’automatiser entièrement le positionnement des données de
façon à s’adapter à n’importe quel scénario d’utilisation ou configuration
professionnelle. L’accès aux données entre les différentes baies de stockage
est ainsi indépendant, cohérent et transparent. L’utilisation de l’information se
transforme alors en un véritable atout, jusqu’ici à peine imaginable.
L’évolution de la virtualisation du stockage
Il est indéniable que la virtualisation permet de réduire les coûts informatiques et
qu’elle représente un nouveau modèle d’allocation des ressources : un serveur
virtuel remplit toutes les exigences énoncées dans la loi Moore relative aux
performances de calcul par unité. Pendant longtemps, la virtualisation des
données a été considérée comme l’élément ultime de la carte virtuelle, puis les
professionnels du stockage ont commencé à s’intéresser à la possibilité
d’abstraire le stockage logique à partir du stockage physique. Cela permet de
libérer l’information en la rendant non seulement indépendante des données mais
aussi virtuellement indépendante.
Si les ressources de traitement peuvent être réparties et positionnées en fonction
des besoins et/ou des applications spécifiques à utiliser, le stockage doit donc
être déployé de sorte que les données soient disponibles instantanément, mises
à jour et synchronisées en temps réel et entièrement indépendantes spatiotemporellement. Le stockage virtuel signifierait alors que l’utilisation des données
transcenderait la bande passante, la cohérence du cache et la latence liée à
la distance.
Quel que soit l’endroit où se trouvent l’utilisateur et les données, celles-ci sont
toujours actuelles, cohérentes et à jour. L’utilisateur accède immédiatement aux
informations voulues, sans avoir à penser au système ni aux données.
Cohérence de cache distribué
Depuis l’introduction des lecteurs de disque fixes à la fin des années 1950,
la gestion du stockage est une activité relativement simple : les données sont
stockées de manière démocratique, uniforme et logique, sans grande
considération pour leur fréquence d’accès ou d’utilisation, ou pour leur rapidité
d’accès. Le problème pour l’utilisateur se résumait en un mot : latence. La mise
en cache a constitué une avancée rapide, qui a permis d’améliorer les temps
d’accès aux données et d’améliorer les performances des anciens et lents
lecteurs de disque fixes. Les caches électroniques ne comportent aucun élément
mobile, tel que disque ou tête de lecture/écriture. Ils assurent de nombreuses
fonctions utiles de stockage, notamment la mise à disponibilité des données
fréquemment utilisées, sans distinction ni latence.
La mise en cache s’est imposée comme la solution à un nouveau problème, suite
à la popularité des environnements distribués et des applications client-serveur.
La gestion des fichiers et des versions étant cruciale, le cache s’est avéré idéal
pour ce type de gestion des modifications, sous la forme de cohérence du cache.
Avec l’avènement de l’environnement virtuel, la mise en cache est à nouveau
redéfinie en tant que cohérence de cache distribué. Les performances de
stockage sont indéniablement améliorées par l’utilisation des disques flash, mais
encore plus par la distribution dynamique sur tous les types de périphériques de
stockage. Dans les deux cas, les données se rapprochent de l’utilisateur, et plus
elles sont proches, mieux c’est. Par « proche », nous entendons que les données
sont de l’information. La plupart des aspects du traitement de l’information
(disponibilité élevée, restauration rapide, contrôle de version, sauvegarde et
sécurité) sont améliorés grâce à la proximité entre le cache virtuel et l’utilisateur.
2
#
©2010 IDC
Il est établi que le cache répond à deux problèmes importants. Le premier est
évidemment la rapidité d’accès. Le second concerne la capacité à hiérarchiser
les demandes d’accès aux données. Un disque fixe ne possède pas cette
intelligence, alors que les données fréquemment utilisées ou réutilisées stockées
dans le cache sont accessibles rapidement. Avec le stockage virtuel, le cache
virtuel devient en outre un cache distribué et améliore considérablement la
rapidité et l’accès aux données. Par ailleurs, la cohérence de cache distribué, par
nature indépendante de la distance, fait appel à de nouveaux algorithmes
destinés à garantir l’intégrité des données et le contrôle des versions. Les
éléments suivants ont été identifiés comme essentiels au fonctionnement de la
cohérence de cache distribué :
` Transparence des baies de stockage au sein du système, quelle que soit
la distance
` Accès virtuel à tout moment, partout et à n’importe quel système
` Suivi du mouvement des données pour la gestion des fichiers et
des versions
` Évolutivité pour s’adapter aux attentes de l’entreprise ou des individus, ou
aux besoins liés à la situation géographique ou au groupe de travail
` Gestion de la capacité groupée à travers les périphériques physiques
et virtuels
` Mise en miroir des applications et des données indépendamment de la
plate-forme
Ces éléments ne semblent pas nouveaux et ne présentent a priori pas de
difficultés insurmontables. Toutefois, si l’on tient compte de la question du
regroupement et de ce que suppose la mise en œuvre d’une fédération de
stockage globale, la résolution des problèmes se fait plus complexe. Si l’on veut
mettre en place des systèmes informatiques véritablement virtuels, l’objectif
consiste à créer un pool de données dynamiques global de ressources
d’informations et les applications nécessaires pour travailler avec ces
informations de sorte que chacun accède aux données facilement et rapidement,
que ce soit à partir de son poste de travail ou de n’importe quel autre endroit.
Les avantages sont présents à tous les niveaux : temps, réduction des coûts,
productivité et compétitivité. D’un point de vue technologique, la fédération
produit une ressource cohérente au niveau global pour permettre un accès aux
informations, en faisant appel au cache et aux ressources de stockage à des
niveaux de performance élevés. La cohérence de cache distribué rend chaque
tâche plus rapide et plus intelligente, tout en garantissant une intégrité élevée des
données. L’approche la plus pratique semble être de commencer localement,
puis de s’étendre vers l’espace global et au-delà.
Prise en considération de charges de travail variables
Des applications et groupes de travail différents ont différentes charges de travail
dans le temps et dans l’espace. Les serveurs distribués ont commencé à traiter
ces questions, mais ne pouvaient pas traiter les données stockées sur divers
sites distants. L’une des premières solutions était pour l’utilisateur de stocker sur
son propre ordinateur les données dont il se servait le plus fréquemment.
©2010 IDC
#
3
Au fil du temps, des parcs locaux de disques ou d’unités de stockage ont
essayé de gérer des données pour des groupes définis géographiquement.
Grâce aux serveurs virtuels, il a été possible de traiter les problèmes de
gestion de données en rendant les données distantes disponibles et en facilitant
l’adaptation de la charge de travail. Cependant, les utilisateurs étaient souvent
obligés d’utiliser le même ensemble restreint de données locales. Si d’autres
avaient besoin de ces données, elles étaient répliquées pour un autre datacenter
localisé. Dès lors, les problèmes de redondance, de gestion de fichier et
de contrôle de version étaient amplifiés.
Les départements informatiques qui ont réussi la transition des serveurs
autonomes aux serveurs virtuels conviennent que cette transition était
révolutionnaire, et cette même évolution est désormais possible avec le
stockage. Très tôt, les outils de virtualisation VMware et le Symmetrix VPLEX
d’EMC ont démontré ce qui pouvait être accompli :
` VMware utilise des technologies qui permettent à plusieurs systèmes
d’exploitation de fonctionner simultanément et indépendamment sur le même
serveur ou poste de travail standard que les machines virtuelles.
On peut accéder à des applications actives ou les déployer au travers
de plusieurs systèmes sans interruption de service. Les serveurs virtuels
de VMware permettaient aux utilisateurs de voir des ressources
d’information distantes comme si elles étaient locales. Ils ont représenté une
étape cruciale dans la compréhension de la nécessité du stockage virtuel.
` Le Symmetrix VPLEX d’EMC, tirant parti du datacenter virtuel, fournit
des niveaux de stockage performants, jusqu’à 2 pétaoctets et offre
une consolidation de la charge de travail et une évolution des
performances des applications. Fondé sur la plate-forme de stockage
Symmetrix, ce produit répondait au besoin plus important de disponibilité
et de performance de stockage pour les applications critiques sur les
serveurs physiques et virtuels rendus possibles par VMware.
Une autre révélation dans la compréhension des systèmes virtuels a été
le fait que les serveurs tombent souvent en panne, mais que les périphériques
de stockage continuent généralement à fonctionner lorsque le cas se produit.
Ainsi, en plus d’améliorer la réponse du système et de rendre l’information plus
disponible, la fédération de la virtualisation du stockage et l’intégration
de la cohérence du cache distribué pourraient rediriger les données vers
un serveur en ligne, sans interruption de service. Un tel système est non
seulement plus fiable et productif, mais il réduit aussi de façon importante les
objectifs de point et de temps de récupération (RPO et RTO). Alors que de
la mise en cache de données peut paraître simple et pratique, leur déplacement
à distance demeure l’un des problèmes informatiques les plus déroutants.
VPLEX : l’émergence du stockage de
données fédérées
La mise en cache des serveurs et des applications était auparavant simple
et pratique, mais elle était basée sur la proximité locale. Il a toujours
été beaucoup plus facile de déplacer des serveurs, ou de disperser des
applications, que de distribuer des données à distance. La résolution
du problème exigeait de repenser le modèle informatique fondamental.
4
#
©2010 IDC
Pendant qu’EMC explorait le concept de fédération et commençait à développer
une plus grande compréhension des problèmes liés à la bande passante,
la latence et la cohérence du cache distribué, de nouvelles perspectives
ont émergé :
` Penser à l’informatique en tant que service, de la même manière que
pour les autres services distribués
` Construire des datacenters communs qui répliquent des machines et
des processus identiques
` Créer des modèles de stockage virtuel fondés sur des modèles de
serveurs virtuels
` Résoudre le problème de la distribution des données à distance (DaaD)
` Libérer l’information de son support physique
` Fédérer les systèmes en les rendant entièrement cohérents, de l’échelle
locale à l’échelle globale
Alors que ces solutions prenaient forme, il devenait évident que l’ancienne
terminologie de virtualisation, la « virtualisation du stockage », ne correspondait
pas au nouveau modèle pour le stockage de données fédérées. Cependant,
le nouveau terme « stockage virtuel » a donné naissance à une définition
plus exacte :
` Stockage virtuel : gestion de la cohérence du cache distribué à distance.
EMC a désormais présenté sa vision complète du stockage virtuel.
Ce produit, c’est VPLEX. Il s’agit d’une plate-forme matérielle et logicielle
destinée aux parcs de données utilisant des baies EMC, Hitachi, IBM et autres.
Tout comme les serveurs peuvent être fédérés, VPLEX peut fédérer
les périphériques de stockage pour créer la cohérence du cache
ou les « Données à distance ». Les données, qu’il s’agisse de mégaoctets
ou de pétaoctets, sont présentées à l’utilisateur comme des données locales.
Le stockage de données fédérées locales, mondiales ou de cloud privé,
signifie une réduction, et bien souvent une suppression totale, des problèmes
de latence et de bande passante. À la place, il crée une cohérence
de cache distribué. Plusieurs environnements informatiques, où qu’ils se trouvent
sur la planète, voient un pool partagé de données et d’informations accessibles
depuis n’importe quel serveur et sur l’ensemble des applications. Des utilisateurs
situés dans différentes régions du globe peuvent accéder simultanément
à des informations identiques et les utiliser, tandis que le fichier maître
reste synchronisé.
VPLEX rend possible la conceptualisation d’un nouveau modèle d’environnement
informatique virtualisé en appliquant au stockage virtuel les principes
de l’évolution des serveurs virtuels. Vu de l’écran de l’utilisateur, l’environnement
informatique est un périphérique indépendant et cohérent, même s’il ne l’est pas
réellement. L’utilisateur a appris à ne pas se soucier de l’emplacement
des ressources de traitement ou de l’application hôte. Il peut désormais travailler
avec ces informations comme si elles étaient stockées sur son propre ordinateur,
indépendamment du lieu où elles sont stockées physiquement. VPLEX s’appuie
©2010 IDC
#
5
sur la flexibilité dynamique de la technologie FAST (Fully Automated Storage
Tiering), grâce à laquelle les informations et les données se trouvent
au bon endroit et au bon moment (en l’occurrence, dans la cohérence du cache).
Pour résumer, VPLEX est l’ensemble d’outils fondamental pour mettre en place
un système virtuel d’informations fédérées (matériel, logiciels et réseau) en tant
que cloud privé capable de couvrir n’importe quelle distance, grande ou petite.
Il apporte les avantages suivants :
` La mise en miroir mondiale d’un environnement maître signifie que
certaines ressources physiques redondantes peuvent être supprimées
et remplacées par des périphériques virtuels.
` La réplication des données pour résoudre les contraintes liées à la
distance appartient au passé.
` Les économies liées à la réduction de taille permettent au département
informatique de fonctionner de manière plus fluide, plus rapide et
moins chère.
` Puisque les ressources physiques sont rassemblées et fondées sur
un modèle virtuel, il n’importe plus de savoir où se situe le datacenter.
Par conséquent, il devient pratique de déplacer les opérations vers
des environnements moins coûteux.
À l’avenir
VPLEX est une solution conçue en fonction des exigences actuelles
et futures. De nombreux départements informatiques ne se sont pas
encore dotés de fonctions virtuelles et VPLEX leur montre la voie. Sa présence
à l’horizon présente aux pionniers un argumentaire intéressant et une
solution complète à des problèmes variés et constants, que d’autres
pourraient bien suivre.
VPLEX est une solution fondée sur des blocs, initialement fournie sous
la forme de deux produits : VPLEX Local et Metro. Metro optimise les
fonctionnalités décrites ci-dessus sur une distance synchrone, jusqu’à
100 km. On peut imaginer de nombreux exemples d’utilisation potentielle
une fois les données libérées, notamment :
` Partage et équilibrage transparents
datacenters physiques et entre ceux-ci
des
ressources
au
sein
‰
Équilibrage de la charge
‰
Déplacement des charges vers des sites à faible coût d’énergie
‰
Prise en charge des environnements VMware
des
` Accès aux données en temps réel pour les utilisateurs distants
6
‰
Accès en lecture/écriture simultané aux données de plusieurs hôtes
‰
Accès aux données
stockage local
de
datacenters
#
physiques
distants
sans
©2010 IDC
` Mise en miroir distribuée sur des plates-formes mixtes
‰
Résilience et disponibilité accrues
‰
Exécution des applications en continu
` Capacité de pooling et d’agrégation
‰
Augmentation du taux d’utilisation du stockage
Au départ, VPLEX devrait être plus adapté aux applications demandant
de nombreuses opérations de lecture. Pour les applications faisant
appel à de nombreuses opérations d’écriture, les technologies de serveurs
et les environnements applicatifs, tels que le traitement des données,
ont du retard à rattraper. Malgré cela, la perspective d’un datacenter
fédéré et mondial est fascinante et concrétise la vision actuellement en
pleine effervescence du cloud computing privé. Un fait reste clair : un cloud
computing privé ou public a besoin d’une couche de virtualisation pour gérer
toutes les ressources technologiques comme un système intégré unique.
À l’intérieur du cloud privé, les utilisateurs peuvent désormais se servir
de toutes les ressources (serveurs, applications, informations et connexions
réseau diverses) comme si elles se trouvaient sur leur propre ordinateur.
C’est la solution informatique que les utilisateurs attendent depuis quarante ans.
Les économies effectuées par le département informatique sont encore
plus importantes. La fédération dans un datacenter virtuel est indépendante
des fournisseurs et unifie les plates-formes sur les serveurs et les parcs
de stockage. Cela signifie que les données sont entièrement transparentes
et disponibles 24 heures sur 24. Les capacités de stockage et les charges
de travail sont réparties dans le cloud par l’utilisation de la cohérence
du cache. La redondance des serveurs et des périphériques de stockage
est réduite ou complètement éliminée, en particulier lorsque le modèle
du datacenter principal est cloné et transmis via le cloud. Il est tout à fait possible
de multiplier par six l’efficacité moyenne.
Au cours de ce processus, le département informatique se rapproche
considérablement du rôle de société de service. Le stockage virtuel
fédéré promet une avancée majeure dans l’évolution de l’informatique.
Les professionnels
confirmés
trouveront
de
nombreuses
manières
et de nombreux moyens de mettre en œuvre et d’appliquer cette nouvelle
technologie révolutionnaire. En écologie, l’une des principales maximes
populaires est « Penser localement, agir globalement ». Au niveau
local, l’utilisateur observera une solution simple à son workflow. Au niveau
du cloud, la fédération change tout car les ressources disparates sont totalement
intégrées et donc agrégées, ou peuvent le devenir.
L’objectif de VPLEX est donc de mettre en œuvre un environnement
informatique fédéré offrant une vue mondiale transparente du stockage
qui peut être distribuée dans le cache avec une cohérence dans
l’environnement de cloud privé. Il est désormais possible pour plusieurs
rédacteurs
de
travailler
avec
les
mêmes
informations
avec
des niveaux d’intégrité correspondants à un environnement d’entreprise.
Lorsque la mise en œuvre est effectuée au niveau d’abstraction approprié,
presque tous les employés peuvent en observer les nombreux avantages,
quelle que soit leur perspective.
©2010 IDC
#
7
Avec VM et VPLEX, EMC crée une nouvelle définition de la
e
virtualisation. Ensemble, ils ont créé un outil concurrentiel du XXI siècle
et un environnement informatique orienté service.
DÉFIS ET OPPORTUNITÉS
Les opportunités sont importantes pour EMC en raison de sa présence
mondiale et de son acceptation généralisée dans les plus grandes
entreprises. Les organisations de toutes tailles cherchent depuis longtemps
à résoudre le problème de la distance.
Avec la mondialisation, la mobilité et les attentes du « toujours disponible »
des utilisateurs, des entreprises et de leurs clients, la disponibilité de
données cohérentes et mises à jour partout dans le monde fournira
à EMC un niveau de leadership technologique qui obligera ses concurrents
à trouver des solutions (ou mieux, à en développer) pour égaler sa promesse.
Cependant, même si EMC pense que VPLEX va résoudre le
problème de distance, il est probable que le scepticisme sera important,
car le problème existe depuis très longtemps et de nombreuses entreprises
s’y sont attaquées par le passé.
En outre, VPLEX n’est pas le remède miracle aux problèmes de
distance. Il ne constituera une solution que pour certains environnements.
Les utilisateurs ne doivent pas s’attendre à ce que VPLEX résolve tous les
problèmes de distance qu’ils rencontrent.
Par exemple, les applications fortement transactionnelles, sensibles
à la latence, ne sont pas des candidats pour VPLEX. (Pour être honnête,
EMC ne promouvra pas VPLEX en tant que solution pour ces applications).
VPLEX aura besoin de services associés pour pouvoir tenir ses
promesses. Cela inclut les conseils avant-vente, la prise en charge après-vente
et la maintenance à long terme pour assurer que la solution fonctionne
de manière optimale.
Enfin, EMC devra aider les utilisateurs à faire la différence entre
les fonctions de diffusion des données à grande échelle d’EMC Atmos
et celles proposées par VPLEX.
8
#
©2010 IDC
CONCLUSION
VPLEX, ainsi que la vision et les plans d’évolution qu’il apporte,
offre une amélioration au problème de distance et une solution
nécessaire pour la cohérence de cache distribué. IDC s’attend à ce
qu’EMC continue à ajouter des solutions supplémentaires à son plan d’évolution.
Les utilisateurs et les clients potentiels de VPLEX doivent travailler
en étroite collaboration avec les équipes EMC pour tirer le meilleur
parti de la solution. Ils doivent se projeter au-delà des frontières
habituelles des datacenters et rechercher de manière créative différentes
opportunités d’optimiser leur investissement.
Globalement, VPLEX représente une approche unique et surtout intégrée
pour faire face au problème permanent de intégration des datacenters distribués
et pour rendre plus petit le monde informatique.
Copyright
Publication externe d’IDC – L’utilisation de toute information IDC dans
des publicités, des communiqués de presse ou des matériels de promotion
est soumise à l’accord écrit préalable du vice-Président ou d’un directeur
régional d’IDC. Un exemplaire du document proposé doit accompagner
la demande. IDC se réserve le droit de refuser l’utilisation externe pour
quelque raison que ce soit.
Copyright 2010 IDC. La reproduction sans accord écrit est strictement interdite.
©2010 IDC
#
9