Untitled - Syncsort

Transcription

Untitled - Syncsort
MAINFRAMES :
vaisseau mère des
Big Data
Comme chacun sait, les particuliers et les entreprises
génèrent chaque jour une quantité énorme de données :
2,5 milliards de trilliards d’octets pour être précis.1 Cela
signifie que 90 % des données mondiales d’aujourd’hui
n’ont été créées qu’au cours de ces deux dernières années.2
À l’ère des smartphones, de Facebook, de Twitter et
des formidables volumes de données (Big Data) qu’ils
engendrent, les mainframes (Big Iron) entrent rarement dans
le débat technologique. Pourtant, dans tous les secteurs
d’activité (finance, grande distribution, santé, assurances,
etc.), les plus grands groupes mondiaux génèrent encore la
majeure partie de leurs données via le mainframe. Pour ces
entreprises et de nombreuses autres, le mainframe est une
source vitale de Big Data qu’il est impossible d’ignorer.
Mainframes : source originelle des Big Data
En fait, les mainframes génèrent jusqu’à 80 % des données d’entreprises – de quoi faire figure de véritable vaisseau mère
des Big Data.3 Ils constituent également une source de données transactionnelles inestimables : tous les retraits aux
distributeurs automatiques jamais effectués, tous les vols réservés sur le système SABRE ont été traités sur mainframe.
Dans ces conditions, il va de soi que toute initiative d’analyse des Big Data devra prendre en compte les informations
générées sur ces grands systèmes. D’autant que ces informations y sont également souvent stockées. La mine de
données transactionnelles et autres qui résident sur les mainframes les rend tout simplement incontournables.
Ce guide vous explique comment relever les quatre plus grands défis de l’exploitation des données mainframe, et
comment offloader des charges batch coûteuses du mainframe vers la nouvelle plate-forme de choix pour l’analyse des
Big Data : Hadoop. Il vous aidera à identifier vos principales faiblesses en la matière et vous livrera des conseils avisés
pour concilier Big Iron et Big Data, avec à la clé une
évolutivité massive de vos données sur Hadoop.
LE MAINFRAME RESTE ROI
GÉNÉRALISATION
D’HADOOP :
LIBÉRER LES
INFORMATIONS
ENFOUIES DANS LES
DONNÉES MAINFRAME
Les premiers utilisateurs d’Hadoop — à savoir les sites
grand public comme Google, Facebook, Amazon et
Twitter — n’exploitaient aucun mainframe. Au cours
des dix prochaines années, à mesure que l’adoption
des technologies Big Data s’accélèrera dans les
grandes entreprises, les logiciels puissants offrant à
Hadoop un accès sécurisé aux vastes référentiels
de données mainframe joueront un rôle essentiel
dans l’exploitation des informations enfouies dans
toutes ces données.
•60 % de toutes les données
Internet sont stockées sur des
mainframes.4
•La plupart des mainframes
utilisent généralement 90 % de
la puissance CPU disponible. Ils
tolèrent des périodes prolongées
d’utilisation des CPU à 100 %,
grâce à la mise en attente et à
la priorisation des tâches sans
interruption des exécutions en
cours.5
•Le nombre de transactions traitées
quotidiennement sur IBM CICS est
supérieur au nombre de pages Web
servies.6
•La technologie mainframe
représente 25 % du chiffre
d’affaires d’IBM et plus de 40 %
de ses bénéfices.7
2
$
DIFFICULTÉS
D’ACCÈS AUX
BIG DATA
Les mainframes offrent une évolutivité et des performances
extrêmes – d’où leurs coûts. Des coûts qui vont bien
au-delà de l’achat de matériels. À l’exploitation, les
mainframes coûtent particulièrement cher en processeurs
et en stockage.
Examinons cela dans le détail.
Coûts processeurs
L’opportunité Hadoop
Contrairement aux autres plates-formes, les mainframes
sont facturés sur la base de la consommation CPU. Plus
vous utilisez votre mainframe, plus vous payez. Pour cela,
les mainframes se basent sur votre consommation en
MIPS (million d’instructions par seconde).8
Les coûts processeurs et de stockage constituent les
deux principales raisons pour lesquelles les entreprises
renoncent à l’analyse de leurs données mainframe. Les
architectures traditionnelles s’avèrent soit très coûteuses,
soit incapables d’effectuer des analyses intensives de
gros volumes de données.
Par exemple, une entreprise pesant 10 milliards de
dollars produira environ 3 700 MIPS sur sa plate-forme
principale.9 D’après le Gartner IT Key Metrics Data pour les
MIPS moyens et l’exploitation des serveurs physiques, le
coût annuel d’un MIPS s’élève à 4 445 $.10 Ainsi, un grand
groupe dépensera environ 16 millions de dollars par an, soit
presque 12 millions d’euros, rien que pour l’exploitation de
son mainframe. Ceci n’est qu’une estimation.
Coûts de stockage
Les mainframes utilisent des systèmes de stockage haute
capacité pour conserver de gros fichiers — les bases de
données peuvent facilement atteindre un téraoctet — et
y accéder extrêmement rapidement. Or, la performance
coûte cher. Les coûts de stockage mainframe peuvent ainsi
atteindre 100 000 $ par téraoctet. Dans de nombreux cas,
la sauvegarde de données mainframe s’effectue encore
sur des bandes, à l’aide de cartouches haute capacité qui
peuvent stocker jusqu’à 8,5 téraoctets de données non
compressées.
Hadoop propose une solution à ces deux problèmes en
migrant les données et certaines charges de traitement
— tri, filtre, copie, agrégation, etc. — du mainframe vers la
plate-forme Big Data. Cette rationalisation du stockage et
des processeurs coûteux permet aux entreprises de mieux
utiliser leurs capacités mainframe tout en garantissant un
meilleur respect des SLA et en réduisant significativement
leurs coûts.
Par conséquent, les entreprises sont très nombreuses à
adopter Hadoop pour intégrer leurs données mainframe
à leurs analyses Big Data. Hadoop leur propose, pour
la première fois, une approche capable de révéler tout
le potentiel des données mainframe de façon rapide,
évolutive et économique.
Grâce à Hadoop, vous associez désormais les
données transactionnelles détaillées des mainframes
aux données clickstream, journaux Web et autres
analyses des sentiments pour réaliser des analyses
autrefois impossibles. Le tout plus rapidement et plus
économiquement que jamais.
3
HADOOP :
l’essor des éléphants
Dès son lancement par Google sous forme de projet open source, Hadoop s’est rapidement imposé comme la plateforme de facto pour l’analyse des Big Data. Elle améliore les architectures de données existantes pour vous offrir deux
grands avantages :
•
Intégration facile et économique de très gros volumes de données mainframe dans les traitements et analyses Big
Data
•
Réduction des coûts grâce à l’offload des charges de traitement batch du mainframe vers
des plates-formes plus économiques
De nombreuses similitudes
Les traitements sur mainframe et sur Hadoop se rejoignent sur
de nombreux points.
•
Les deux plates-formes excellent dans le traitement batch,
avec une évolutivité et une fiabilité sans pareil.
•
Toutes deux dépendent fortement du tri. Dans le cas des
mainframes, jusqu’à 80 % des traitements batch impliquent
un tri. De la même façon, Hadoop a recours au tri des
données dans ses phases Map et Reduce.
•
Les deux plates-formes s’appuient sur un framework
fortement distribué pour traiter d’énormes volumes de
données.
Quelle est
l’ampleur de la
tâche Big Data ?
« Je cherche un moyen de
transférer les données de
11 000 opérations mainframe
quotidiennes vers mon data
warehouse, puis vers un cluster
Hadoop. »
— Directeur technique d’une
entreprise du Fortune 500
Combler le fossé (énorme)
entre Big Iron et Big Data
À l’évidence, il existe des différences entre Big Iron et Big Data.
L’offload des données mainframe et leur traitement dans Hadoop
n’est pas une mince affaire. Sans les bons outils, vous risquez de
freiner vos initiatives Big Data. Selon une étude récente, 44 %
des personnes interrogées considèrent le coût et les efforts
nécessaires à la transformation et au chargement des données
mainframe dans un data warehouse centralisé comme leur
problème nº1 de gestion des Big Data.11
Les programmeurs Hadoop ont donc besoin d’un moyen simple
d’accéder, de traduire et de migrer d’énormes volumes de
données mainframe vers les environnements Hadoop, et de les
rendre rapidement productives.
4
MAINFRAME ET HADOOP :
tous sur la même
longueur d’ondes
Pour de nombreuses entreprises, le meilleur moyen
de concilier le mainframe et Hadoop reste encore de
faire collaborer tout le monde dès le départ. Grâce à
une équipe transfonctionnelle composée d’adeptes
des deux plates-formes, vous pouvez clairement
définir les objectifs de votre projet, entendre les
inquiétudes des deux camps et vous épargner bien
des casse-tête. Vous avez donc toutes les raisons
de créer une équipe soudée de costume-cravate
(mainframe) et de baskets-sweatshirt (Hadoop).
Ce que vous devez savoir
Culturellement parlant, il ne fait aucun doute qu’un fossé
sépare les deux camps. Approches, préoccupations et
intérêts : ils divergent sur de nombreux points.
Pour les développeurs mainframe, les mots d’ordre sont
qualité, précision, fiabilité et sécurité. Rien de grave à
manquer un flux Twitter lorsque l’on sait que la disparition
d’une transaction financière peut vous coûter la prison. Du
côté des supporters d’Hadoop, l’utilisation et la disponibilité
immédiates priment. On met en production et on rentre à
la maison !
Ainsi, pour mener à bien un projet impliquant les deux
technologies, deux conditions s’appliquent :
•
•
Les adeptes d’Hadoop doivent comprendre le
fonctionnement des mainframes et les applications
qu’ils hébergent afin de mieux saisir les inquiétudes
des « costume-cravate » quant à la sécurité et aux
coûts.
Les inconditionnels du mainframe doivent pour leur
part cerner toutes les nouvelles possibilités d’Hadoop
en termes d’analyse et de sources de données.
Cette démarche leur permettra de comprendre
l’enthousiasme des « baskets-sweatshirt » pour l’agilité
de l’outil et sa connectivité étendue et sécurisée.
Syncsort : facteur de
cohésion des équipes
Heureusement, il existe des outils technologiques
qui vous permettent de rapprocher les deux
camps. En ce sens, Syncsort constitue un véritable
facteur de cohésion pour vos équipes. Syncsort
associe des décennies d’expertise mainframe
à des fonctionnalités Hadoop de pointe pour
vous offrir une approche simple et transparente
de l’exploitation de toutes vos données dans
Hadoop, y compris celles des mainframes.
Installées sur 50 % du parc Big Iron mondial, les
solutions Syncsort figurent parmi les logiciels
third-party les plus éprouvés sur mainframe.
Vous pouvez donc nous faire confiance. Nous
sommes également fortement implantés dans
la communauté Hadoop, comme en témoignent
nos contributions permanentes à l’évolution de
la plate-forme open source et les partenariats
étroits noués avec les principaux acteurs de cette
communauté.
5
ÉTAPE
1 :
résoudre les problèmes
d’intégration
Hadoop s’impose comme la plate-forme de choix pour l’analyse des Big Data.
Toutefois, elle n’offre pas de prise en charge native des mainframes.
Par conséquent, vous devez établir les connexions au mainframe par vous-même.
Une fois que vous y êtes parvenu, vos développeurs Java découvrent un tout
nouveau monde : traduction de données, copybooks COBOL, EBCDIC, « occurs
depending on », données décimales condensées, etc.
Impression vs. réalité
Malheureusement, le transfert de vos données mainframe
vers Hadoop s’avère bien plus complexe qu’il n’y paraît.
Vous pensez qu’il suffit de contacter l’équipe responsable
de la gestion de ces données, qui les chargera sur un
serveur FTP avant que les équipes Hadoop ne s’occupent
il arrive que les données clients se trouvent
dans une table et les commandes dans une
autre. Si vous le souhaitez, vous pouvez joindre
ces deux tables et agréger certaines de leurs
données en vue de bénéficier d’une meilleure
de les transférer vers HDFS ? Détrompez-vous !
vue d’ensemble. Vous devez ensuite copier les
données obtenues.
Vous êtes bien loin du compte. Le processus de migration
des données mainframe vers Hadoop suit un tout autre
scénario. Chaque fichier que vous souhaitez transférer
doit passer par les étapes suivantes :
1. Tout d’abord, vous devez identifier et sélectionner les
données à transférer. Cette tâche s’avère peu évidente
pour la plupart des développeurs Hadoop, élevés
aux interfaces graphiques. Les données mainframe
pourront se trouver dans plusieurs emplacements
(VSAM, bases de données, DB2 ou IMS), sous forme
de fichiers plats à longueur fixe ou variable. Il est donc
important de savoir comment accéder aux données.
2. Ensuite, vous devrez éventuellement prendre en
compte la compression SMS (Storage Management
Subsystem), qui se traduit en temps CPU.
3. Puis, vous aurez probablement besoin de préparer les
données. Cette préparation se divise elle-même en
deux parties :
•
•
Premièrement, vous filtrez les données pour en
extraire ce dont vous avez besoin. Par exemple,
il se peut que vous vouliez uniquement 50 % des
colonnes d’une table. Dans ce cas, vous devez
filtrer les colonnes souhaitées afin de réduire
votre consommation E/S.
Deuxièmement, vous effectuez un prétraitement
( jointures, tris, agrégations, etc.). Par exemple,
4. L’étape suivante consiste à traduire vos données.
Depuis toujours, le stockage sur mainframe s’est
avéré limité et coûteux. C’est pourquoi des formats
comme les décimales condensées ont vu le jour,
afin de stocker plus de données sur moins d’espace.
Par exemple, l’utilisation de données décimales
condensées pour le stockage de valeurs numériques
peut diviser par deux l’espace disque nécessaire sur
le mainframe. Bien que cette technique réduise les
besoins en stockage, elle ne permet pas de visualiser
les données et vous oblige à les convertir avant leur
chargement dans des cibles comme Hadoop.
5. Mais ce n’est pas tout. Afin de parfaitement comprendre
le sens des données, vous devrez vous familiariser
avec les copybooks COBOL. Sur le mainframe, les
métadonnées sont stockées dans des structures
obscures appelées copybooks COBOL, sortes de
plans complexes d’accès aux données sous-jacentes.
Les copybooks étant toujours conservés séparément
des données, il existe un risque de désynchronisation
entre données et métadonnées – si tant est que vous
parveniez à trouver les copybooks !
6. Une fois les données rationalisées au moyen du
copybook COBOL, vous pouvez enfin procéder au
transfert FTP et charger les fichiers dans Hadoop.
6
om
pres
s
filtrer/
reformater
io
n
Bases de
données, tables
et fichiers
déc
UN VÉRITABLE PARCOURS
DU COMBATTANT
sms
données
données
co
ré
gation
tr
i, joi
données
pie
sfer
an
r
tt
traduire/
comprendre :
t
nt
ure, ag
EBCDIC-ASCII et
copybooks COBOL
ftp
chargement
dans Hadoop
Attention aux autres embûches...
Aujourd’hui, l’extraction des données mainframe pour leur chargement dans Hadoop s’apparente à un véritable parcours
du combattant. Parmi les autres obstacles :
•
Consommation de temps CPU (augmentation des MIPS)
•
Problèmes de contrôle et gestion des données
•
Manque d’évolutivité pour respecter les fenêtres de traitement batch
•
Perturbation du fonctionnement du mainframe en production
En résumé, le temps, les coûts et les efforts nécessaires dissuadent de nombreuses entreprises d’utiliser les données
mainframe pour leurs analyses Big Data et autres.
7
QU’EST-CE QU’UN COPYBOOK COBOL ?
Dans le langage mainframe, un copybook correspond à une section de code écrite en COBOL
qu’il est possible de copier depuis un master et d’insérer dans différents programmes, ou en
différents endroits d’un même programme. Souvent, il sert à définir la structure physique des
données du programme, les morceaux de code procédural et les prototypes. Les copybooks
permettent de :
•
S’assurer que tout le monde utilise la même version d’une définition de la structure des
données ou d’un code procédural
•
Faciliter les références croisées là où les composants sont utilisés dans un système
•
Simplifier la modification des programmes en cas de besoin (une seule copie maître à
changer)
•
Réduire le besoin en codage des structures de données afin d’économiser du temps aux
programmeurs
Toutefois, pour des développeurs Hadoop peu aguerris à la programmation en COBOL pour
le mainframe, les copybooks peuvent s’avérer extrêmement déroutants.
-- extrait tiré de la page Wikipedia anglaise
Bonnes pratiques pour combler le fossé entre Big
Iron et Big Data
Toute solution destinée à accélérer l’accès, la traduction et le transfert des données mainframe dans Hadoop doit offrir
les fonctionnalités suivantes :
Connectivité
Chargement et traitement
•
•
Chargement direct dans HDFS
•
Offload des traitements batch
•
Transformations intégrées complètes pour une prise
en charge des flux de données et traitements batchs
complexes (p.ex. tri, agrégation, jointure, copie, filtre,
etc.), et bibliothèque de fonctions
•
Analyses complémentaires
Lecture des fichiers directement depuis le mainframe,
avec prise en charge des formats d’enregistrement
mainframe, y compris les formats fixe, variable,
variable avec descripteur de blocs et VSAM
•
Traduction des données à la volée, pour une
compréhension instantanée des données mainframe
lors de la conception des flux de données
•
Aucun logiciel nécessaire sur le mainframe
Traduction
•
Fonctions de transformation des données – décimales
condensées, EBCDIC/ASCII, enregistrements multiformats, etc. – sans codage
•
Prise en charge des copybooks COBOL
8
ÉTAPE
2 :
combler les écarts de compétences
Les compétences mainframe et Hadoop sont à la fois très rares
et très recherchées. Quant aux développeurs maîtrisant les
deux technologies, ils sont encore plus difficiles à trouver. Pour
prendre un peu de perspective, rappelons que la programmation
COBOL est apparue en 1959, tandis que la plate-forme Hadoop,
elle, n’a fait ses débuts que vers 2005, soit un grand écart de
plus de 40 ans !
C’est pourquoi les outils de transfert de données et de
développement de processus MapReduce imitant les opérations
batch du mainframe doivent requérir un minimum de formation
des collaborateurs déjà présents dans l’entreprise — et pas
uniquement les développeurs mainframe ou Hadoop ultraqualifiés. En effet, qu’il s’agisse de migrer les données vers
Hadoop pour des analyse Big Data ou pour l’offload de
traitements batchs, la plupart des départements informatiques
disposent de ressources très limitées dans ces deux domaines
de compétences.
Bonnes pratiques pour combler le fossé entre Big
Iron et Big Data
Comme nous l’avons souligné, rien que l’ingestion des données mainframe implique beaucoup de tâches et de codage
manuels. L’offload des données mainframes et des traitements batchs dans Hadoop obligent les entreprises à acquérir
un tout nouveau pool de compétences avancées en programmation. Or, ces compétences rares se paient cher. Dans ce
contexte, il est primordial de choisir un outil d’intégration de données complémentaire d’Hadoop et capable d’être utilisé
par toutes les compétences existantes dans votre entreprise.
Quelques bonnes pratiques :
•
Choisissez un outil doté d’une interface graphique qui permette aux développeurs Hadoop d’accéder, de traduire
et de charger des données mainframe dans HDFS sans intervention des programmeurs mainframe.
Les équipes IT ne devraient pas avoir à maîtriser Hive, Pig ou Java pour créer des processus MapReduce ; l’outil
devrait fournir des Mappers et Reducers clés en main. Cette fonctionnalité permet de réellement concilier le
mainframe et Hadoop en éliminant tout recours à la programmation COBOL, Hive, Pig ou encore Java.
•
Cherchez des outils intégrant des bibliothèques de modèles prédéfinis qui vous permettent d’offloader vos
données mainframe vers Hadoop et de répliquer facilement (dans Hadoop) les mêmes transformations de données
effectuées en COBOL et JCL sur le mainframe.
•
La réutilisabilité est essentielle ! Les fonctions de gestion des métadonnées en mode fichiers favorisent cette
réutilisation, pour un gain de productivité des développeurs et une simplification de la maintenance des systèmes.
•
Suivez visuellement les flux de données grâce aux métadonnées et à la traçabilité.
9
ÉTAPE
3 :
combler les failles
de sécurité
Les mainframes renferment certaines des données les
plus sensibles de l’entreprise. Dans les départements
informatiques, leur protection est prise très au sérieux.
Les dirigeants eux-mêmes sont conscients qu’en matière
de sécurité des données du mainframe, les entreprises
n’ont pas droit à l’erreur. Conclusion : si vous ne pouvez
garantir l’accès, le traitement et la diffusion sécurisés des
données, votre initiative Hadoop ne verra jamais le jour.
Mais ce n’est pas tout. Comme nous l’avons évoqué,
l’extraction des données du mainframe reste un processus
obscur, dans la mesure où il est impossible de connaître
la nature des données avant de les avoir récupérées. Bien
entendu, cette situation présente un important problème
de sécurité. L’extraction des données doit donc s’effectuer
de façon sécurisée afin de limiter l’accès aux seules
données autorisées, le tout via un dispositif de sécurité
qui s’intègre en toute transparence à l’environnement
mainframe.
On ne s’étonnera pas de voir les partisans du mainframe
s’alarmer face à la volonté de leurs homologues Hadoop
d’extraire des données du Big Iron.
Faiblesses de certains
outils
Certains outils d’extraction des données du mainframe
requièrent l’installation de logiciels non testés et non
éprouvés sur le mainframe. D’autres vous contraignent à
adopter leur propre modèle de sécurité et synchronisent
en permanence le vôtre avec le leur. Pour la plupart des
départements informatiques, aucune de ces approches ne
répond aux exigences.
Bonnes pratiques pour
combler le fossé entre
Big Iron et Big Data
Toute solution destinée à accélérer l’accès, la traduction et
le transfert des données mainframe vers Hadoop devrait
remplir plusieurs critères :
•
Rien à installer sur le mainframe
•
Prise en charge des protocoles Kerberos et LDAP
•
Extraction et chargement sécurisés des données
•
Exécution sécurisée des opérations
•
Sécurité au niveau des utilisateurs à l’aide d’un
protocole d’autorisation
Là encore, l’expérience et la confiance font toute la
différence. Votre solution de transfert des données
mainframe dans Hadoop devra reposer sur un logiciel
d’entreprise éprouvé, dont la réputation en matière de
sécurité n’est plus à faire.
Syncsort offre certains des logiciels
third-party les plus réputés et
éprouvés de la planète mainframe.
Aujourd’hui, Syncsort s’exécute sur 50 % de tous les mainframes. Si vous possédez un
mainframe, vous avez de grandes chances d’utiliser Syncsort. Sinon, pas de problème !
Grâce à DMX-h, vous pouvez exploiter toutes vos données sans installer de logiciel
supplémentaire sur votre mainframe — pas même un logiciel Syncsort.
10
ÉTAPE
4 :
réduire les écarts de coûts
Comme dans tous les projets informatiques et Big Data,
il existe bien évidemment un facteur coût. Les coûts de
gestion d’un téraoctet de données peuvent connaître des
variations importantes au sein d’une même entreprise :
•
Entre 20 000 $ et 100 000 $ par téraoctet dans un
environnement mainframe
•
Entre 15 000 $ et 80 000 $ par téraoctet dans un data
warehouse d’entreprise
•
Entre 250 $ et 2 000 $ par téraoctet dans Hadoop
Compte tenu des coûts très élevés des MIPS sur le
mainframe, la migration des données du Big Iron vers
Hadoop ne devrait entraîner aucune surconsommation
CPU mainframe pour le tri, le filtrage, la copie ou le
téléchargement. Sinon, à quoi bon économiser d’un côté
si c’est pour dépenser de l’autre ?
Bonnes pratiques pour combler le fossé entre Big
Iron et Big Data
Toute solution destinée à offloader les données mainframe et les charges de traitement vers Hadoop devrait vous
permettre de :
•
Réduire des coûts d’investissement (CapEx) et d’exploitation (OpEx) : votre entreprise devrait pouvoir réduire ses
CapEx et OpEx, d’abord en réduisant sa consommation CPU et E/S sur le mainframe, puis en optimisant l’efficacité
des ressources du cluster Hadoop. Ainsi, vous pourrez maximiser les débits par nœud du cluster et réduire les
besoins d’ajouter constamment de nouveaux nœuds.
•
Accélérer les processus MapReduce existants : votre solution devrait améliorer les performances et l’évolutivité
de votre traitement de données dans Hadoop. Dans l’idéal, les opérations MapReduce existantes devraient
également bénéficier de meilleures performances sans aucune modification. Ainsi, les opérations s’exécuteront
plus rapidement, augmentant la capacité du cluster à traiter davantage d’opérations dans la même fenêtre de
traitement.
•
Réduire les délais d’analyse : votre entreprise pourra accélérer et fiabiliser sa prise de décisions sur la base
d’analyses plus précises, grâce au traitement de volumes de Big Data plus importants dans des délais réduits et sur
les mêmes ressources.
11
SYNCSORT DMX-H :
plus rapide qu’un éléphant
à la charge
L’approche unique de Syncsort vous aide à libérer tout
le potentiel d’Hadoop au sein d’environnements Big
Data complexes. Elle favorise ainsi une adoption plus
large de la plate-forme dans toute l’entreprise. Grâce à
Syncsort DMX-h, votre entreprise peut capitaliser sur ses
compétences ETL existantes pour accélérer ses projets
Hadoop et traiter plus de données en moins de temps, tout
en réduisant ses coûts et sa consommation de ressources.
Offloadez vos données et
traitements mainframe
vers Hadoop !
Grands avantages de
Syncsort DMX-h
•
Réduction des coûts : bénéficiez d’une
connectivité directe entre Hadoop et
le mainframe, sans installer de logiciel
supplémentaire sur votre Big Iron. Offloadez
vos charges de traitement batch COBOL et
JCL vers Hadoop pour baisser vos coûts de
traitement mainframe (réduction de votre
consommation MIPS).
•
Évolutivité : offloadez vos données et vos
charges de traitement batch du mainframe
vers Hadoop et bénéficiez de l’évolutivité
massive inhérente à Hadoop.
Syncsort DMX-h offre une approche plus efficace de
l’exploitation de vos données mainframe et du transfert de
vos traitements batchs coûteux vers Hadoop :
•
Un seul et même outil pour connecter toutes vos
données à Hadoop
•
Connectivité zéro MIPS au mainframe
•
Intégration facile et traduction des données à la volée
•
Offload des traitements batch COBOL et JCL vers
Hadoop
•
Interface utilisateur graphique de développement,
test et dépannage des opérations MapReduce – sans
aucun codage
•
Performance : migrez vos données et
traitements mainframe vers Hadoop avec des
performances optimales par nœud.
•
Bibliothèque de modèles types adaptés aux principales
tâches ETL : jointures, change data capture (CDC),
agrégations de journaux Web, accès aux données
mainframe, etc.
•
Fiabilité : utilisez le logiciel third-party pour
mainframes le plus réputé du marché, doté de
technologies éprouvées qui vous garantissent
un résultat sans faute à tous les coups.
•
Fonctionnalités simplifiées de déploiement, suivi et
administration, y compris des fonctions complètes de
journalisation, ainsi qu’une intégration au JobTracker
d’Hadoop pour faciliter la consommation de journaux
•
Agilité : intégrez les données mainframe à
vos analyses Big Data pour permettre à votre
entreprise de fiabiliser et d’accélérer sa prise
de décisions.
•
Sécurité renforcée grâce à la prise en charge de
Kerberos et LDAP
•
Compétences : faites confiance à votre
équipe actuelle de développeurs Hadoop
pour développer de façon exponentielle les
capacités Big Data de votre entreprise.
12
ÉTUDE
DE CAS :
une grande banque américaine fait
décoller son projet Hadoop
Entreprise du S&P 500 dotée de 119 milliards de dollars d’actifs, ce grand établissement s’impose
comme le plus grand prestataire de services financiers complets des États-Unis. La banque
possède des clients dans 16 États et ses filiales lui assurent une présence sur le terrain via
environ 1 700 agences et plus de 2 000 distributeurs automatiques.
Dans l’impasse
Après une tentative de migration manuelle des données
mainframe vers Hadoop, l’équipe IT s’est trouvée au
pied du mur. Les développeurs venaient de passer des
mois à essayer de traiter par eux-mêmes les données
mainframe en Java. Ils avaient notamment consacré
plusieurs semaines à la lecture d’un copybook d’une
centaine de pages destiné à définir un seul fichier.
Hormis les nombreux copybooks longs et complexes, les
développeurs rencontraient d’autres difficultés :
•
•
Absence de logique applicative mainframe
correspondant au copybook et qui aurait permis de
trouver les erreurs de données
Dépendance de l’équipe Hadoop vis-à-vis de l’équipe
mainframe chargée de fournir les données
Syncsort leur facilite la
tâche
Syncsort DMX-h constituait le chaînon manquant
dont la banque avait besoin pour migrer ses données
mainframe dans Hadoop. Syncsort DMX-h a analysé
18 types d’enregistrements différents en toute simplicité,
en paramétrant graphiquement les règles « Redefine »
du copybook COBOL. Grâce à Syncsort DMX-h, l’équipe
Hadoop est parvenue à lire et convertir rapidement un
fichier à longueur variable et un fichier VSAM directement
depuis le mainframe, avant de les charger dans HDFS.
Temps total de développement avec Syncsort DMX-h :
moins de 4 heures pour les deux fichiers !
Autres avantages
•
Processus reposant sur de nombreuses tâches
manuelles mais très mal documenté
Grâce à Syncsort DMX-h, la banque a pu bénéficier
d’autres avantages importants :
•
Absence d’évolutivité de l’ensemble du projet, du fait
du manque d’experts maîtrisant à la fois Java et les
technologies mainframe
•
Plus de contrôle sur les délais de migration des
fichiers depuis le mainframe. Auparavant, l’équipe
Hadoop devait attendre que l’équipe mainframe
fournisse un fichier. Désormais, les experts Hadoop
peuvent extraire des fichiers en toute sécurité, chaque
fois qu’ils le souhaitent.
•
Malgré la réussite de son processus initial, la banque
a pensé qu’elle avait besoin d’une approche plus
pérenne, capable de s’étendre à l’ensemble de
son infrastructure informatique, tout en offrant une
meilleure documentation et en limitant l’écriture de
code et de scripts.
•
Les spécialistes mainframe qui ne maîtrisent pas Java
peuvent désormais créer des opérations de migration
pour les scénarios les plus complexes.
Au départ, la banque a passé des mois à créer du code
Java pour procéder à la migration. Elle est ainsi parvenue
à créer un programme destiné à traduire et à importer
80 % des fichiers mainframe et de bases de données.
Toutefois, face aux aspects les plus complexes de son
projet mainframe-Hadoop, le département informatique
s’est rendu compte qu’il ne pouvait gérer des fichiers
mainframe sans la logique applicative mainframe
correspondant à leur copybook.
La banque a alors fait appel à Syncsort.
« Nous devions valider de très longs copybooks et les mettre en correspondance avec les données. Parce
que nos copybooks sont volumineux et complexes (formats Redefines imbriqués, Occurs et Occurs Depending
On imbriqués), ils exigeaient un travail manuel long et fastidieux. Il n’a fallu que quelques minutes à Syncsort
DMX-h pour valider les copybooks et afficher les erreurs dans les données. »
— Chef de projet dans une grande banque américaine
13
Optez dès aujourd’hui pour
Syncsort DMX-h
Syncsort DMX-h fait de l’analyse des Big Data une réalité dans votre
entreprise. Non seulement la solution permet à votre département
informatique de traiter d’énormes volumes de données dans Hadoop,
mais elle constitue également un facteur de cohésion entre vos équipes
mainframes et Hadoop qui contribueront chacune efficacement à vos
initiatives stratégiques.
Pour une évolutivité massive de vos données
sur Hadoop, testez Syncsort DMX-h par vousmême !
Ou essayez Syncsort Ironcluster™ pour Amazon EMR !
Solution Hadoop ETL pour Amazon EMR, Syncsort Ironcluster vous offre tous les avantages
de DMX-h, avec en prime l’ergonomie et l’évolutivité uniques du Cloud Amazon.
Cet eBook vous a été
utile ? Faites-le
découvrir à d’autres !
Pour les entreprises appelées à gérer un flux constant de Big Data, Syncsort offre
une méthode plus intelligente de collecte et de traitement de volumes de données
en pleine explosion. Avec des milliers de déploiements à son actif sur les plus
grandes plates-formes, notamment les mainframes, Syncsort aide ses clients du
monde entier à repousser les limites architecturales des environnements Hadoop
et d’intégration de données pour obtenir de meilleurs résultats, plus rapidement,
avec moins de ressources et un TCO en baisse. Pour en savoir plus, rendez-vous sur
www.syncsort.fr.
NOTES :
Data Storage in the Era of Big Data, ViaWest, 31 janvier 2012
Source : IBM, cité dans Improving Decision Making in the World of Big Data, Christopher Frank, Forbes.com, 25 mars 2012
3
Encryption Meets the Mainframe, Gordon Rapkin, IBM Systems Magazine, septembre 2006
4
En 2005. Source : Introduction to the new mainframe: z/OS basics, IBM
5
Source : www.mainframesvilla.blogspot.com
6
Ibid.
7
Estimation de l’analyste A. M. Sacconaghi pour Sanford C. Bernstein, tel que cité dans I.B.M. Mainframe Evolves to Serve the Digital World, Steve
Lohr, The New York Times, 28 août 2012
8
Le nombre de MIPS (million d’instructions par seconde) est une mesure générale de la puissance de calcul et, partant, de la quantité d’opérations
qu’un plus gros ordinateur peut traiter. Sur les grands serveurs et mainframes, le MIPS permet de mesurer le coût du calcul : pour un montant donné,
plus le nombre de MIPS est élevé, plus le système est rentable.
9
Economics of Computing - The internal combustion Mainframe, Dr. Howard Rubin.
10
2010
11
Source : Mainframe Role in Big Data Strategy 2013, BMC Software.
12
Lorsque vous souhaitez récupérer au moins 80 % des données, il est éventuellement préférable de simplement toutes les transférer. Votre
consommation d’E/S sera certes plus élevée, mais vous économiserez sur la consommation CPU puisque vous ne filtrerez rien. Au final, il s’agit d’un
compromis entre SLA et coûts, car le filtrage sur le mainframe consomme plus de MIPS.
1
2
© 2014 Syncsort Incorporated. Tous droits réservés. Tous les noms de produits et marques cités appartiennent à leurs propriétaires respectifs.
DMXH-EB-002-1113FR