Architectures MIMD

Transcription

Architectures MIMD
3A-IIC – Calcul parallèle et distribué,
et Grilles de calculs
Notions d’architectures
parallèles et distribuées
Stéphane Vialle
[email protected]
http://www.metz.supelec.fr/~vialle
Notions d’architectures
parallèles et distribuées
1 – Vue d’ensemble
2 – Architectures DataFlow et Systolique
3 – Architectures Vectorielles
4 – Architectures SIMD
5 – Architectures MIMD
6 – Sources d’information permanente
7 – Bilan statistique du Top-500
2
1
Notions d’architectures parallèles et distribuées
1 - Vue d’ensemble
1. Types d’architectures parallèles
2. Classification …
3. Les divers besoins des applications
3
Vue d’ensemble
Types d’architectures parallèles
DataFlow
Systolique
SIMD
Vectoriel
ShM
1992/93
2006
Machines dédiées /
cartes filles
ou « accélérateurs »
MIMD
Shm
Cluster
DiM MIMD
PC
DiM
DSM
Fujitsu
Nec
Cray ?
HP, SUN,
IBM, SGI
Grilles
IBM ?? HP, …
SGI
Fujitsu
…
Asmbl.
2007+ : Architectures hétérogènes/hybrides
4
2
Vue d’ensemble
Classification …
1972 - Classification de FLYN :
• simple et suffisante en 1972
• 4 classes d’architectures
Simple
Flot
d’instructions : Multiple
p
Flot de données :
Simple Multiple
SISD
SIMD
MISD
MIMD
Machines séquentielles
Machines
parallèles
généralistes
Depuis ... beaucoup d’autres « classifications » … peu convaincantes!
5
Vue d’ensemble
Classification …
Une classification plus récente :
1 Architectures « standard components » à base de processeurs
1.
et de réseaux d’interconnexion du marché.
2. Architectures « semi-custom » à base de processeurs du
marché et de réseaux d’interconnexion spécifiques
3. Architectures « ffull-custom » à base de pprocesseurs et de
réseaux d’interconnexion spécifiques
Spécifique Æ plus efficace, mais plus cher et plus long à développer!
Voir + loin.
6
3
Vue d’ensemble
Les Divers besoins des applications
(Flexibilité des configurations - SGI)
Mécanique des Fluides
CPU
Supercalculateur traditionnel
Serveur de stockage
Traitement signal
Serveurs Web
I/O
Stockage
g
Media streaming
Inutile de tout dimensionner au maximum! Surcoût inutile.
7
Notions d’architectures parallèles et distribuées
2 - Architectures spécialisées
p
vs génériques
1.
2.
3.
4.
Problème du temps de conception
Les solutions p
possibles
Exemple de champs d’application
Autre stratégie
8
4
architectures spécialisées vs génériques
Problème du temps de conception
Architectures « data-flow » ou « systoliques » ou « SIMD »
ou
à base de processeurs « data-flow » ou « systoliques » ou « SIMD »
Potentiellement beaucoup plus puissantes sur des algorithmes
de type « data-flow » ou « systoliques » ou « SIMD », mais …
… requièrent de concevoir des processeurs spécifiques,
… requièrent des temps de conception importants,
… et pendant ce temps les processeurs du marché progressent!
9
architectures spécialisées vs génériques
Problème du temps de conception
Créer un processeur (+ une architecture + un OS) … prend du temps !
Perff archis
hi concurrentes génériques
i
perf
!!!
Perf de l’archi systolique
Début de
conception
Fin de
réalisation
Δ T trop grand!
années
Dépassé par la technologie
standard avant de naître!
Il existe des solutions pour « accélérer » le processus Æ
10
5
architectures spécialisées vs génériques
Les solutions possibles (1)
Architectures parallèles à base de composants génériques du marché :
• démarche apparue clairement depuis 1993
• profite des évolutions des technologies séquentielles/standards
• investissements limités à l’interconnexion des processeurs et
au logiciel
• temps de développement réduit des nouvelles architectures
• ex :
9 machines MIMD à base de CPU du marché,
9 machines hétérogènes à base de CPU + GPU du marché;
11
architectures spécialisées vs génériques
Les solutions possibles (2)
Développement rapide d’architectures spécialisées :
• se limiter à développer des cartes-filles pour machines standards
• automatiser la conception de l’architecture data-flow/
systolique/SIMD à partir de la description de l’algorithme!
Æ développement de compilateurs de silicium spécifiques
• utiliser des composants d’architecture programmable.
Æ ex: FPGA
Solutions prometteuses mais plus complexes à mettre en œuvre
12
6
Notions d’architectures parallèles et distribuées
3 - Architectures Vectorielles
1.
2.
3.
4.
Ancienne gamme CRAY
Nouvelle architectures vectorielles
Apparition et impact du « Earth Simulator »
Architectures vectorielles actuelles
13
architectures vectorielles
Anciennes gamme Cray
Cray-1, 1976
133Mflops
Cray-T90,
60 gigaflops
Cray-2, 1985
1.9 gigaflops
Cray-J90
Cray-YMP, 1988
Cray-C90, 1991
16 gigaflops
14
7
architectures vectorielles
Anciennes gamme Cray
• Le Cray-T90 : fin d’une gamme tout en technologie ECL …. :
Référence
exacte
T94
Nombre de
processeurs
4
Mode de
refroidissement
Air ou liquide
T916
16
Liquide
T932
32
Liquide
Configuration maximale : T932
• 32 processeurs,
• 60 gigaflops crête,
• Machine : 5.2m3,
• Refroidisseur : 2.4m3
• 1 M$ / processeur (+/- 20%)
15
architectures vectorielles
Nouvelles architectures vectorielles
NEC (SX)
Cray-T90,
60 gigaflops
Cray-SV1
1 teraflop
Vector MPP
Cray-SX-6
Cray-X1 – 52.4 Tflops
Cray-SV2
16
8
architectures vectorielles
Nouvelles architectures vectorielles
• Technologie CMOS - 1998, Cray-SGI
• Mémoire DRAM et mémoire cache avant les pipelines vectoriels
CMOS-vectoriel
Cache
DRAM
• Cluster de machines Vectorielles-SMP : 32 nœuds max
Un nœud : une machine vectorielle de 32 processeurs max
Sh. RAM
Sh. RAM
………….
Sh. RAM
1 2 …..32
1 2 …..32
1 2 …..32
Cluster communication network
• Perf : 1024 procs max - 1 teraflops crête
perf/prix(SV1) = 8 x perf/prix(T90)
Mais : cluster vectoriel à mémoire non uniforme …
17
architectures vectorielles
Apparition et impact du Earth Simulator
Gros cluster vectoriel NEC :
• 640-nœuds de 8 processeurs : 5120 processeurs
• 40 Tflops crête, a atteint les 35 Tflops en juin 2002
Le vectoriel revient à
la 1ère place du Top500
(en 2002) !
“ Vector
MPP”
18
9
architectures vectorielles
Apparition et impact du Earth Simulator
Forte inquiétude
des USA !
19
architectures vectorielles
Réponse de Cray/USA au Earth Simulator
Gros cluster de machines vectorielles :
• Armoires – Noeuds – Processeurs
1 – 64
16 – 1024 64 – 4096
“Scalable
Vector
MPP”
• 819GFlops – 52.4TFlops
• Clock Speed : 800MHz (seulement!)
• R DRAM – Cache Coherence : DSM
Forte innovation sur la RAM :
- Rapide (Bw proc-Ram)
- DSM sur processeurs vectoriels
- Accès rapide depuis tous les procs
Nouveaux processeurs très performants
Objectifs :
• Nouvelle lignée
de Cray vectoriels
• Péta-Flop en 2010
20
10
architectures vectorielles
Réponse de Cray/USA au Earth Simulator
21
architectures vectorielles ?
Architectures CRAY actuelles
Vector MPP
Cray-X1 – 52.4 Tflops
Cray-XT3
Cray-XT4
Cray-XT5
cluster de CPU
multicoeurs,
li
Linux
i
Cray-XT6
ou XT6h (?)
Opteron 6-cores
Tore 2D
Réseau Cray
Cray-XT5h (hybrid)
cluster de noeuds
CPU/Vectoriels/FPGA,
Unicos (Cray Unix)
22
11
architectures vectorielles ?
Architectures CRAY actuelles
Un tore 3D de nœuds spécialisés.
• Chaque
q nœud ppossède sa mémoire locale
et ses composants de communication.
Cray XT5h
• On peut installer des cartes superscalaires
ou vectorielles ou FPGA (ou un mélange).
Tore 3D de nœuds spécialisés
23
Notions d’architectures parallèles et distribuées
4 - Architectures SIMD
1. Principes des architectures SIMD
2 Les Connection machines
2.
3. Problème des architectures SIMD
24
12
architectures SIMD
Principes des architectures SIMD
Principes :
• Un décodeur d’instruction
• Des milliers de processeurs sans décodeurs d’instructions :
sorte d ’UAL avec une mémoire locale
• Un solide réseau d’interconnexion
• Un processeur fait la même chose que les autres ou rien.
Décodeur
d’instruction
d’i
t ti
Frontal
données
Réseau de PEs
Très efficace pour certains pbs à grain fin (traitements d’images)
25
architectures SIMD
Les « Connection Machines »
CM-22 General Specifications
CM
Processors 65536 (64K)
Memory
512 MB
Memory Bw 300Gbits/Sec
I/O Channels 8
Capacity per Channel 40 MB/Sec
Max. Transfer Rate 320 MB/Sec
DataVault Specifications
Storage Capacity
5 or 10 GB
I/O Interfaces 2
Transfer Rate, Burst 40 MB/Sec
Max. Aggregate Rate 320 MB/Sec
Thinking Machines Corporation
W. Daniel Hillis
Connection-Machine 2 - 1987
26
13
architectures SIMD
Problème des architectures SIMD 1980-90
• Demande des processeurs spécifiques : PAS ceux du marché
→ dépassés par ll’évolution
évolution constante des processeurs du marché et
par les machines parallèles MIMD qui les utilisent
Perf
MIMD
1990-1993
Le marché du calcul
SIMD SIMD n’est pas
suffisant pour
financer la course
avec le MIMD à
base de proc. std.
• C’est vers 1993 que se confirme ce phénomène
• Vers 2000 : quelques « cartes filles SIMD » pour des marchés
spécifiques.
27
architectures SIMD
Renouveau des architectures SIMD 2006+
• L’industrie du jeu vidéo a généré un marché de processeurs SIMD
9 « GPU » : dans les PCs
9 « IBM Cell » : dans les PS3
• Appelés « accélérateurs
matériels ».
• Réalisation d’architectures
« hétérogènes » :
CPUs + accélérateurs.
• Utilisation en « coprocesseurs scientifiques » pour certains calculs.
Æ Architectures efficaces, mais programmation multi-paradigmes
(plus complexes).
28
14
architectures SIMD
Renouveau des architectures SIMD 2006+
Architecture GPU nVIDIA [ - 2009] :
• Un ensemble de ppetites machines
SIMD (les multiprocesseurs).
• Des mémoires spécialisés et une
mémoire globale non cachée.
• Des communications couteuses
entre CPU et GPU.
• Programmation par threads légers
• Exécution d’une grille de
blocs de threads légers !!
CPU
• Gains en vitesse et en énergie
très variables (selon l’appli).
• Souvent très intéressant!
&
CPURAM
GPU
Multiprocesseur n
Multiprocesseur
p
1
Multiprocesseur 1
Multiprocesseur 1
Shared Memory
Shared Memory
Shared Memory
Registers
Registers
Shared Memory
Registers
Registers
Registers
Registers
Registers
Registers
Thread (0, 0) Thread (1, 0)
Thread (0, 0) Thread (1, 0)
Thread (0, 0) Thread (1, 0)
Thread (0, 0) Thread (1, 0)
Local
Local
Memory
Memory
Local
Local
Local
Local
Memory
Memory
Local
Local
Memory
Memory
Memory
Memory
Global
Memory
Constant
Memory
Texture
Memory
29
architectures SIMD
Renouveau des architectures SIMD 2006+
Architecture du processeur IBM Cell (processeur MID/SIMD !) :
• 8 unités SIMD (mais pas
seulement SIMD…)
• 1 CPU de petite puissance
• Une interconnexion en 4
anneaux
• Très peu de mémoire sur
chaque unité de calcul.
• Souvent utilisé associé à
une CPU plus puissante.
Fin du Cell en 2009 ?
30
15
architectures SIMD ?
Renouveau des architectures SIMD 2006+
Première machine Pétaflopique : IBM Cell + AMD Opteron
Le 25 Mai 2008, IBM passe le Pétaflop
sur une machine à base de processeurs
AMD Opterons et d’accélérateurs IBM
Cell (le « Roadrunner »).
Interconnexion à
deux niveaux:
• Switchs par blocs
de 144 Opterons.
• Réseau Infiniband
entre les switchs.
31
Notions d’architectures parallèles et distribuées
5 - Architectures MIMD
1. Types d’architectures MIMD
2 Quelques grandes étapes
2.
16
architectures MIMD
Types d’architectures MIMD
Shared-memory MIMD machines (SMP) :
Un principe,
U
i i mais
i :
- plusieurs techniques
de réalisation,
- plusieurs coûts,
- plusieurs efficacités.
Overview of Recent
Supercomputers
Aad J. van der Steen
Jack J. Dongarra33
architectures MIMD
Types d’architectures MIMD
Distributed-memory MIMD machines :
Mem
Mem
Mem
proc
proc
proc
network
Principe des clusters,
mais le coût et la
perf. sont dans le
réseau d’interconnexion!
Hypercubes
Fat trees
Autres
34
17
architectures MIMD
Types d’architectures MIMD
Hybrid MIMD architectures :
• S-COMA ((th.)) ou
ccNUMA (réalisée)
• Espace d’@
• unique (super!)
• ou segmenté.
• Réalisation :
• Hardware (bien)
• Soft … lent!
Overview of Recent
Supercomputers
Aad J. van der Steen
Jack J. Dongarra
« Distributed Shared Memory »
ou « Virtual Shared Memory »
35
Notions d’architectures parallèles et
distribuées
5 - Architectures MIMD
1. Types d’architectures MIMD
2 Quelques grandes étapes
2.
18
architectures MIMD – grandes étapes
1980-85 : Cosmic-Cube
Première machine parallèle MIMD à mémoire distribuée
Réseau hypercubique
Cadre du projet :
• Origine : Collaboration informaticiens-physiciens
• But final : Une application de calcul intensif TRES régulière
• Conçue et réalisée à CALTECH (1980 -1985), avec l’aide d’INTEL
Hardware :
• Processeurs : 64 x (8086 + 8087) → 3 Mflops crête !
• Mémoire de 128 Ko/Proc, Liens à 2 Mbits/s
• Réseau de communication Hypercubique (26 nœuds – dimension 6)
Dim 1
Dim 2
Dim 3
Dim 4
…………
37
architectures MIMD – grandes étapes
1980-85 : Cosmic-Cube
Interface frontale
8 blocs de 8 carte mères
(64 processeurs)
Ventilateurs
38
19
architectures MIMD – grandes étapes
1980-85 : Cosmic-Cube
Routage des données :
• Software
• Store & forward statique (et étude d’un
d un wormhole dynamique)
Programmation :
• Multiprocessus possible sur chaque PE
• Envois de messages
• Send et Recv non bloquant (!)
L’envoi de msgs apparaît plus difficile que le partage de mémoire
Performances sur calculs localisés et réguliers :
• Efficacité moyenne : 85%
• Meilleure efficacité : 97%
Mise en évidence de l’influence des temps de communications
39
architectures MIMD – grandes étapes
1980-85 : Cosmic-Cube
Bilan du projet Comic-Cube :
• Première machine MIMD à mémoire distribuée
• Premiers algorithmes de parallélisation en hyper
hyper-cube
cube
• Succès pour les calculs localisés et réguliers !
• Mise en évidence de la difficulté de l’envoi de messages
• Mise en évidence du besoin de routages rapides
Suites commerciales :
Intel-iPSC :
⎧
80286
32–128 x⎪⎨⎪
⎩80287
10 Mbit/s par lien
512 Ko/proc
IIntel-iPSC/860
t l iPSC/860 :
8–128 x i860
45 Mbit/s par lien
128 proc →
2.6 Gflops obtenus
5.1 Gflops crêtes
40
20
architectures MIMD – grandes étapes
1987-91 : CM5
Tentative de passage du SIMD au MIMD :
Milliers de processeur RISC & Vectoriels, Réseau en Fat-Tree
Thinking-Machine :
1984-87 : CM1 & CM2 : SIMD
↓
1987-91 : CM5 : MIMD & vectoriel
⎧
RISC : sparc
• PE ≤16384⎪⎪⎨
⎪
i é − vectoriell
i lles
⎩⎪unités
• Mémoire distribuée : 32Mo/PE
• 3 réseaux arborescents
1 téraflop crête en 1991 !
MIMD & vectoriel en 1991 !
41
architectures MIMD – grandes étapes
1987-91 : CM5
• Réseau de données :
• Destiné aux communications point à point
• Fat
Fat-Tree
Tree : les branches les plus hautes ont plus de capacités de com,
→ évite les engorgements des arbres classiques
• 20 Mo/s crête par lien :
→communication très locales : 15 Mo/s / PE
→permutation aléatoire :
4 Mo/s / PE !!
• Réseau de contrôle :
• Destiné aux synchronisations
• Broadcast possible depuis 1 PE à la fois
• Arbre binaire
• Réseau de diagnostic :
• Destiné à la détection et à l’isolement des pannes
• Arbre binaire
42
21
architectures MIMD – grandes étapes
1987-91 : CM5 - Fat Tree
Fat-Tree (MIT 1983-85) :
• Crossbar : capacité de com maximale,
maximale
mais trop difficile à réaliser
• Hyper-Cube : compromis,
mais capacité de com. sous-exploité (!)
• Binary Fat-Tree : autre compromis,
moins de capacité - plus simple à réaliser
• Rmq : Protocole de communication de la CM5 :
• Pour un nœud : ∑ entrées > ∑ sorties ⇒ pertes de messages !
• Pertes de messages & ack.
• Ré-émission au cycle suivant si perte
43
architectures MIMD – grandes étapes
1987-91 : CM5 - Fat Tree
Binary Fat-Tree d’ordre 4 de la CM5 :
44
22
architectures MIMD – grandes étapes
1987-91 : CM5
Programmation de la CM5 :
• Langages de programmation Data-Parallel,
• et envois de messages
→ Mélange original …. !
Le user’s guide était celui d’une machine SIMD :
• Rassurant pour un habitué du SIMD ou du vectoriel
• Censé supporter efficacement une programmation SIMD …
Etrange !
45
architectures MIMD – grandes étapes
1987-91 : CM5
Bilan :
Machine très innovante mais performances décevantes !
• Capacités de communications insuffisantes ?
Æ le Binary Fat-Tree réalisé semblait peu efficace
• Modèle de programmation inadapté à l’architecture ?
Æ ressemblait en partie à celui d’une machine SIMD
• Modèle de programmation complet trop complexe ?
Æ pas d’expérience en SIMD + envois de messages
Fin de la société Thinking Machine !!!.
46
23
architectures MIMD – grandes étapes
1993-2000 : Cray-T3D & T3E
En 1993 : le Cray-T3D est la première machine MIMD à mémoire
distribuée avec un réseau d’interconnexion réellement performant
Cray-T3D :
• Processeurs : 1 à 1024 Alpha
• Réseau de comm. : tore 3D
600Mo/s lien crête
100-480Mo/s réel
• Mémoire : distribuée et partageable
mais NUMA : <n° proc,ptr loc>
47
Cray-T3D
architectures MIMD – grandes étapes
1993-2000 : Cray-T3D & T3E
Le T3D précipitamment en 1993 … pour occuper le marché!
• Il faut un Cray YMP en frontal d’un T3D !!!
• Le cache L2 des processeurs Alpha a du être invalidé !!!
→ Cray propose des formations pour apprendre à bien
utiliser le petit cache L1 !!!
• Les compilateurs et optimiseurs de code sont buggés !
Mais : gros succès immédiat !
• Très bonnes performances
• Temps de communication négligeables
• Programmable par envoi de messages ou
par partage de mémoire (au choix)
1er réseau de
communication
a hauteur de la
puissance des
processeurs!
48
24
architectures MIMD – grandes étapes
1997-2002 : SGI-Origin2000
Première architecture DSM commercialisée :
Offre une mémoire partagée et plusieurs centaines de processeurs
SGI-Origin2000 :
• Processeurs : 4 à 512 Mips-R12000 (RISC)
• Réseau hyper-cubique
y
: distribuée et p
partagée
g
• Mémoire hybride
• Implantation Hardware « CC-NUMA »
• Espace d’@ unique
• Architecture plus extensible que les
SMP (limitées en 1996 à 20 procs.)
49
architectures MIMD – grandes étapes
1997-2002 : SGI-Origin2000
Et ça marche !
• Plus efficace qu’une SMP
• Plus
l extensible
ibl qu’une SMP
NAS Parallel Benchmark Kernel FT
32
SMP - SGI-PowerChallenge
DSM - SGI-Origin2000
S(P) = P
28
Accéléra
ation
24
20
16
12
8
4
0
0
4
8
12
16
20
Nom bre de processeurs
24
28
32
50
25
architectures MIMD – grandes étapes
1997-2002 : SGI-Origin2000
Programmation :
• Envoi de messages : PVM, MPI
• Accès mémoire distant : Shmem (SGI avait racheté CRAY)
• Partage de mémoire entre processus ou threads
• Partage de mémoire par OpenMP (threads implicites)
Æle ccNUMA 100%
hardware était
vraiment efficace
Bubble-sort parallèle
60
Temps d'exécution
Le partage de mémoire
était plus rapide que
l’envoi de messages !
Bubble-sort - MPI
50
Bubble-sort Threads
40
30
20
10
0
0
8
16
24
32 40
48
Nombre de processeurs
56
64
51
architectures MIMD – grandes étapes
1997-2002 : SGI-Origin2000
Bilan :
• Machine performante et facile à programmer
• Architecture
A hi
quii s’est
’ avérée
é é extensible
ibl
600
Nombre maxim
mum de
processeur
Evolution exponentielle
de la taille maximale des
SGI-Origin2000 de
1997 à 2001 :
Evolution de la taille des SGIOrigin2000
500
400
300
200
100
0
1996
1997
1998
1999
2000
2001
52
26
architectures MIMD – grandes étapes
… 1994 …
1998- : Les clusters (de PCs)
1994 : 1er cluster de PCs, appelé “Beowulf”
• En 1994, T. Sterling et D. Becker (CESDIS)
assemblent un “cluster”
cluster avec leurs machines :
- 16 mono-processeurs DX4 (intel-486)
- réseau Ethernet (10Mb/s)
- configuration Linux + envoi de messages
(PVM/MPI)
• C’est un succès : très bonnes p
performances
et pas cher !
• Les “clusters” vont commencer à se répandre …
Un cluster “Beowulf” est constitué de machines standards et d’un
réseau standard, simplement configurés pour fonctionner ensembles
53
architectures MIMD – grandes étapes
… 1994 …
1998- : Les clusters
Les clusters « percent » définitivement autour de l’an 2000 :
54
27
architectures MIMD – grandes étapes
… 1994 …
1998- : Les clusters
1998/99 : cluster expérimental de 225 PC à Grenoble
Rank 385 in
Top500
• Configuration d’intranet standard dans une entreprise.
• Développement
Dé l
t de
d couches
h systèmes
tè
de
d reboot
b t complet
l t ett rapide,
id
• Recherche algorithmique
55
architectures MIMD – grandes étapes
Coût réel des clusters … ?
CRAY critique les clusters, et défend les super-calculateurs
56
28
architectures MIMD – grandes étapes
… 1994 …
1998- : Les clusters
Bilan des Clusters (ou « grappes ») :
• Très répandus, et les plus grosses machines sont des clusters.
• Les grands constructeurs proposent tous des clusters (ex: IBM)
IBM).
• Configurations types :
- Clusters de PCs en Gigabit-Ethernet (« Beowulf »)
- Clusters de Pentium à réseaux rapides (Myrinet, InfiniBand)
- Clusters d’Itaniums à réseau Quadrics (machine du CEA)
- Clusters de super-calculateurs
(machine à Livermore)
• LA question récurrente : « que faire à prix constant ? »
- plus de nœuds ?
Pas de réponse
- plus de processeurs par nœuds ?
standard !
- meilleur réseau d’interconnexion ?
• LA question tabou : « coût total d’un cluster de PC ? »
57
architectures MIMD – grandes étapes
2002 - Clusters de nœuds vectoriels
Le Earth-Simulator est-il une machine MIMD ou vectorielle ?
• 640-nœuds de 8 processeurs (5120 processeurs)
• Chaque nœud est scalaire ET vectoriel
“Vector
MPP”
58
29
architectures MIMD – grandes étapes
1998 – 2002 - …: Les Grilles
Les grilles sont l’étape suivante des clusters :
Parallel computer → Distributed computer → Cluster → Grid
• A ce jour elles manquent d’OS (ou de « Grid middleware »)
• Il ne s’agit pas seulement de paralléliser des applications …
… mais de « partager des ressources distantes ».
User should access his standard PC or
a world Grid without any difficulty
local
PC
Grid
59
architectures MIMD – grandes étapes
1998 – 2002 - …: Les Grilles
Grille vs cluster :
• Un cluster se construit autour d’un LAN
• Une Grille traverse des WAN
Principaux types de Grilles :
• Grilles de supercalculateurs sur réseau WAN dédié
• Grilles de clusters de PC sur plusieurs sites
• Grilles de PC desktops sur Internet (proche du P2P)
• Grilles de données (Grille de disques et de serveurs de
fichiers)
Voir chapitres sur les Grilles
60
30
architectures MIMD – grandes étapes
2004 –
2005- : IBM Blue Gene
• Un grand nombre de processeurs (jusqu’à 212992 en 2007)
• Des processeurs avec un très bon ratio perf/consommation
(
(IBM
PowerPC
C 440 FPU with
i h complex
l arithmetic
i h i Extensions)
i )
• De très bons réseaux d’interconnexion avec diverses topologies
• Une architecture globale très fiable
61
architectures MIMD – grandes étapes
2004 –
2005- : IBM Blue Gene
Un investissement rentable :
• Machine chère à l’achat !
• Mais « faible » coût ensuite!
Æ Le « total price » du Gigaflop est faible
Plusieurs réseaux d’interconnexion :
• pour les données routées en pt-à-pt
Æ tore 3D
Æ arbre
• pour les comm « collectives »
(ex : broadcast)
• pour les barrières
• pour le monitoring / le contrôle des nœuds
• pour les IO et accès vers Ethernet
• Implantation spécifique et optimisée de
l’environnement de programmation MPI
62
31
architectures MIMD – grandes étapes
2004 –
2005- : IBM Blue Gene
Une machine conçue pour être compacte,
légère, peu consommatrice d’NRJ (et
P i
Puissante)
t ):
• optimisation de l’espace interne
et des flux d’air de refroidissement!
• s’installe facilement (sur tout site) :
• pas de renforcement du plancher
• ppas de ligne
g électrique
q tropp
exceptionnelle à installer
• en 2007 :
• en tête du Top500
• en tête du Top Green500
63
architectures MIMD – grandes étapes
2007 : Cray XT5h (hybrid)
Un tore 3D de nœuds spécialisés.
• Chaque
q nœud possède
p
sa mémoire locale
et ses composants de communication.
Cray XT5h
• On peut installer des cartes superscalaires
ou vectorielles ou FPGA (ou un mélange).
Tore 3D de nœuds spécialisés
64
32
architectures MIMD – grandes étapes
2008 : IBM Roadrunner
Première machine à passer le Pétaflop (le 25 Mai 2008), grâce à une
architecture hétérogènes (hybride) :
Construit autour de processeurs AMD Opteron, d’accélérateurs
IBM Cell, et de switchs interconnectés par un réseau Infiniband.
65
architectures MIMD – grandes étapes
2008 : IBM Roadrunner
66
33
architectures MIMD – grandes étapes
2008+ : cluster de GPUs
Simples clusters de PCs équipés de GPUs
• Bon marché
• Grosse puissance crête
• Consommation énergétique moyenne
Mais programmation multi-paradigmes complexe!
• Gros grain + grain fin
• Compilateurs encore faible pour la détection d’erreurs
• Point faible : les communications entre CPU et GPU
Æ Une algorithmique pour cluster de GPUs apparaît
Æ Sur des calculs indépendant le Speedup peut atteindre Nμ100
67
architectures MIMD – grandes étapes
2009-2010: des optimisations énergétiques
Des processeurs moins gourmands en énergie :
• on essaie de limiter la consommation de chaque processeur
• les
l processeurs passe en mode
d économique
é
i
sii ils
il sont inutilisés
i ili é
•…
Une densité de processeurs en hausse :
• Une tendance à la limitation de la taille totale des machines
(en m² au sol)
Refroidissement des machines par air :
• tous les constructeurs cherchent à optimiser les flux d’air
(ex : SGI/Rackable), pas seulement IBM avec ses Blue Gene
68
34
architectures MIMD – grandes étapes
2009-2010: des optimisations énergétiques
Refroidissement des machines par liquide :
• de plus en plus de machines refroidies par liquide (nécessaire et
plus efficace),
• une technologie de plus en plus maîtrisée et bon marché (!)
• ex : future machine IBM (1Tflops / carte)
69
architectures MIMD – grandes étapes
2009-2010: des optimisations énergétiques
Refroidissement des machines par liquide :
• ex : Cray XT6
(encore) plus dense que le XT5,
refroidissement plus soigné.
70
35
architectures MIMD – grandes étapes
Novembre 2009 : 1.7Pflops pour 6.9MW !
En novembre 2009 :
#1 top500 : 1Pflops/2.3MW Æ 1.7Pflops/6.9MW !!!
pg
d’un Crayy XT5 :
En fait c’est un upgrade
#2 avec des Opteron 4-core 2.3GHz (150152 cores) et 6.95MW
Æ #1 avec des Opteron 6-core 2.6 GHz (224162 cores) et 6.95MW
Les autres machines du Top10 sont plutôt entre 1 et 2.3 MW (environ)
Aujourd’hui on évite souvent les Opterons (trop gourmands en NRJ)…
architectures MIMD – grandes étapes
2009-2010: des nœuds de calculs FPGA
Technologie FPGA dans les nœuds de calculs génériques :
• Moins de FPGA dans les majors (Cray, SGI, …)
Pl de
Plus
d FPGA dans
d
de
d nombreuses
b
petites
tit sociétés
iété !
• Consortium OpenFPGA.org
• Programmation possible en « C/C++ étendu » (ex : Impulse-C)
• 2 stratégies :
• Carte fille FPGA connectée sur le bus PCI-express (comme
les GPUs) : simple & standard
standard, mais temps de transfert.
transfert
• Mini carte FPGA connecté sur un socket d’une carte mère
multi-socket : plus rapide, mais pas standard.
Quel avenir ? …. À surveiller.
36
Notions d’architectures parallèles et distribuées
6 - Sources d’information permanente
1. Top500.org
p
g
2. Green500.org
3. Spec.org
73
sources d’informations permanentes
Le Top 500 des supercalculateurs
http://www.top500.org (http://www.top500.org/)
• List of the 500 most powerful computer systems installed.
• The best Linpack benchmark performance achieved is used as a
performance measure in ranking the computers.
• The TOP500 list is updated twice a year since June 1993.
Novembre 2009 :
Ra
nk
Site
Manuf
acturer
Computer
Count
ry
Cores
RMax
RPeak
Power
(KW)
Jaguar - Cray XT5-HE
XT5 HE Opteron
Six Core 2.6 GHz / 2009
USA
224162
1759 00
1759.00
2331 00
2331.00
6951
Roadrunner - DC
Opteron+Cell+Infiniband
USA
129600
1042.00
1375.78
2483
1 Oak Ridge National
Laboratory
C
Cray
IInc.
2
DOE/NNSA/LANL
IBM
3
University of Tennessee
USA
98928
831.70
1028.85
4
Forschungszentrum
Juelich (FZJ)
IBM
JUGENE - Blue Gene/P
Solution
Germ
any
294912
825.50
1002.70
2268
5
National
SuperComputer Center
in Tianjin/NUDT
Intel+A
MD
Tianhe-1 - NUDT TH-1 Cluster,
Xeon E5540/E5450, ATI
Radeon HD 4870 2, Infiniband
China
71680
563.10
1206.19
74
Cray
Inc.
Kraken XT5 - Cray XT5-HE
Opteron Six Core 2.6 GHz
37
sources d’informations permanentes
Top 500 des supercalculateurs
Juin 2004 :
Rank
Site
Country/Year
Computer / Processors
- Manufacturer
Rmax
Rpeak
1
Earth Simulator Center
Japan/2002
Earth-Simulator / 5120 - NEC
35860
40960
2
Lawrence Livermore National
Laboratory
United States/2004
Thunder Intel Itanium2 Tiger4 1.4GHz - Quadrics /
4096 - California Digital Corporation
19940
22938
3
Los Alamos National Laboratory
United States/2002
ASCI Q - AlphaServer SC45, 1.25 GHz / 8192 - HP
13880
20480
4
IBM - Rochester
United States/2004
BlueGene/L DD1 Prototype (0.5GHz PowerPC 440
w/Custom) / 8192 - IBM/ LLNL
11680
16384
5
NCSA
United States/2003
Tungsten PowerEdge 1750, P4 Xeon 3.06 GHz, Myrinet
/ 2500 - Dell
9819
15300
Juin 2005 :
Rank
Site - Country/Year
Computer / Processors - Manufacturer
Rmax
Rpeak
1
DOE/NNSA/LLNL United States/2005
BlueGene/L
eServer Blue Gene Solution / 65536 - IBM
136800
183500
2
IBM Thomas J. Watson Research
Center - United States/2005
BGW
eServer Blue Gene Solution / 40960 - IBM
91290
114688
3
NASA/Ames Research Center/
NAS - United States/2004
Columbia
SGI Altix 1.5 GHz, Voltaire Infiniband / 10160 - SGI
51870
60960
4
The Earth Simulator Center –
Japan/2002
Earth-Simulator / 5120 - NEC
35860
40960
5
Barcelona Supercomputer Center
– Spain/2005
MareNostrum
JS20 Cluster, PPC 970, 2.2 GHz, Myrinet / 4800 - IBM
27910 75
42144
sources d’informations permanentes
Juin 2005 :
Top 500 des supercalculateurs
Rank
Site - Country/Year
Computer / Processors - Manufacturer
Rmax
Rpeak
1
DOE/NNSA/LLNL United States/2005
BlueGene/L
eServer Blue Gene Solution / 65536 - IBM
136800
183500
2
IBM Thomas J. Watson Research
Center - United States/2005
BGW
eServer Blue Gene Solution / 40960 - IBM
91290
114688
3
NASA/Ames Research Center/
NAS - United States/2004
Columbia
SGI Altix 1.5 GHz, Voltaire Infiniband / 10160 - SGI
51870
60960
4
The Earth Simulator Center –
Japan/2002
Earth-Simulator / 5120 - NEC
35860
40960
5
Barcelona Supercomputer Center
– Spain/2005
MareNostrum
JS20 Cluster, PPC 970, 2.2 GHz, Myrinet / 4800 - IBM
27910
42144
Juin 2006 :
Rank
Site - Country/Year
Computer / Processors - Manufacturer
Rmax
Rpeak
1
DOE/NNSA/LLNL United States/2005
BlueGene/L
eServer Blue Gene Solution / 131072 - IBM
280600
367000
2
NNSA/Sandia National Laboratories
United States
Red Storm - Sandia/
Cray Red Storm, Opteron 2.4 GHz dual core / 26544 - CRAY
101400
127411
3
IBM Thomas J. Watson Research
Center - United States/2005
BGW
eServer Blue Gene Solution / 40960 - IBM
91290
114688
4
DOE/NNSA/LLNL
United States
United States
ASC Purple - eServer pSeries p5 575 1.9 GHz / 12208 - IBM
75760
92781
5
Barcelona Supercomputer Center
– Spain/2005
MareNostrum
JS20 Cluster, PPC 970, 2.2 GHz, Myrinet / 4800 - IBM
27910 76
42144
38
sources d’informations permanentes
Juin 2006 :
Top 500 des supercalculateurs
Rank
Site - Country/Year
Computer / Processors - Manufacturer
Rmax
Rpeak
1
DOE/NNSA/LLNL United States/2005
BlueGene/L
eServer Blue Gene Solution / 131072 - IBM
280600
367000
2
NNSA/Sandia National Laboratories
U i d States
United
S
Red Storm - Sandia/
C
Cray
R
Red
dS
Storm, Opteron
O
22.4
4 GH
GHz dduall core / 26544 - CRAY
101400
127411
3
IBM Thomas J. Watson Research
Center - United States/2005
BGW
eServer Blue Gene Solution / 40960 - IBM
91290
114688
4
DOE/NNSA/LLNL
United States
United States
ASC Purple - eServer pSeries p5 575 1.9 GHz / 12208 - IBM
75760
92781
5
Barcelona Supercomputer Center
– Spain/2005
MareNostrum
JS20 Cluster, PPC 970, 2.2 GHz, Myrinet / 4800 - IBM
27910
42144
Novembre 2007 :
Ra
nk
k
Site
Man
ufac
f
turer
Computer
Country
Procs
RMax
RPeak
1
DOE/NNSA/LLNL
IBM
eServer Blue Gene/L Solution
USA
212992
478200
2
Forschungszentrum Juelich (FZJ)
IBM
Blue Gene/P Solution
Germany
65536
167300
222822
3
SGI/New Mexico Computing
Applications Center (NMCAC)
SGI
SGI Altix ICE 8200, Xeon quad
core 3.0 GHz
USA
14336
126900
172032
4
Computational Research
Laboratories, TATA SONS
HP
Cluster Platform 3000 BL460c,
Xeon 53xx 3GHz, Infiniband
India
14240
117900
170880
5
Government Agency
HP
Cluster Platform 3000 BL460c,
Xeon 53xx 2.66GHz, Infiniband
Sweden
13728
102800
146430
77
596378
sources d’informations permanentes
Top 500 des supercalculateurs
Novembre 2007 :
Ra
nk
Site
Man
ufac
turer
Computer
Country
1
DOE/NNSA/LLNL
IBM
eServer Blue Gene/L Solution
USA
212992
478200
2
Forschungszentrum Juelich (FZJ)
IBM
Blue Gene/P Solution
Germany
65536
167300
222822
3
SGI/New Mexico Computing
Applications Center (NMCAC)
SGI
SGI Altix ICE 8200, Xeon quad
core 3.0 GHz
USA
14336
126900
172032
4
Computational Research
Laboratories, TATA SONS
HP
Cluster Platform 3000 BL460c,
Xeon 53xx 3GHz, Infiniband
India
14240
117900
170880
5
Government Agency
HP
Cluster Platform 3000 BL460c,
Xeon 53xx 2.66GHz, Infiniband
Sweden
13728
102800
146430
Novembre 2008 :
Ra
nk
Site
Man
ufact
urer
Computer
Procs
RMax
Count
ry
Cores
RMax
RPeak
RPeak
596378
Power
(KW)
1
DOE/NNSA/LANL
IBM
Roadrunner - DC
Opteron+Cell+Infiniband
USA
129600
1105000
1456700
2483
2
Oak Ridge National
Laboratory
Cray
Cray XT5 QC 2.3 GHz
USA
150152
1059000
1381400
6951
3
NASA/Ames Research
Center/NAS
SGI
SGI Altix ICE 8200EX, Xeon
QC 3.0/2.66 GHz
USA
51200
487005
608829
2090
4
DOE/NNSA/LLNL
IBM
eServer Blue Gene/L Solution
USA
212992
478200
596378
2330
5
Argonne National
Laboratory
IBM
Blue Gene/P Solution
USA
163840
450300
557056
1260
78
39
sources d’informations permanentes
Top 500 des supercalculateurs
Novembre 2008 :
Ra
nk
Site
Manufa
cturer
Computer
Count
ry
Cores
RMax
RPeak
Power
(KW)
1
DOE/NNSA/LANL
IBM
Roadrunner - DC
Opteron+Cell+Infiniband
USA
129600
1105000
1456700
2483
2
Oak Ridge National
Laboratory
Cray
Cray XT5 QC 2.3 GHz
USA
150152
1059000
1381400
6951
3
NASA/Ames Research
Center/NAS
SGI
SGI Altix ICE 8200EX, Xeon
QC 3.0/2.66 GHz
USA
51200
487005
608829
2090
4
DOE/NNSA/LLNL
IBM
eServer Blue Gene/L Solution
USA
212992
478200
596378
2330
5
Argonne National
Laboratory
IBM
Blue Gene/P Solution
USA
163840
450300
557056
1260
Count
ry
Cores
RMax
RPeak
Jaguar - Cray XT5-HE
XT5 HE Opteron
Six Core 2.6 GHz / 2009
USA
224162
1759 00
1759.00
2331 00
2331.00
6951
Roadrunner - DC
Opteron+Cell+Infiniband
USA
129600
1042.00
1375.78
2483
USA
98928
831.70
1028.85
Novembre 2009 :
Ra
nk
Site
Manuf
acturer
Computer
1 Oak Ridge National
Laboratory
C
Cray
IInc.
2
DOE/NNSA/LANL
IBM
3
University of Tennessee
4
Forschungszentrum
Juelich (FZJ)
IBM
JUGENE - Blue Gene/P
Solution
Germ
any
294912
825.50
1002.70
5
National
SuperComputer Center
in Tianjin/NUDT
Intel+A
MD
Tianhe-1 - NUDT TH-1 Cluster,
Xeon E5540/E5450, ATI
Radeon HD 4870 2, Infiniband
China
71680
563.10
1206.19
Cray
Inc.
Kraken XT5 - Cray XT5-HE
Opteron Six Core 2.6 GHz
Power
(KW)
2268
sources d’informations permanentes
Top 500 « vert » des supercalculateurs
80
40
sources d’informations permanentes
Top 500 « vert » des supercalculateurs
Le classement est très différent de celui du Top500 !
Janvier 2008
81
sources d’informations permanentes
Top 500 « vert » des supercalculateurs
Novembre 2008
Les architectures hétérogènes à base d’IBM Cell
passent en tête.
82
41
sources d’informations permanentes
Top 500 « vert » des supercalculateurs
Novembre 2009
Les « Cell » en tête, et les Mflops/Watt progressent
83
sources d’informations permanentes
Le site officiel des mesures de perf
http://www.spec.org/
Différents type de tests sont effectués :
(http://www.spec.org/ )
SPEC CPU2006
[benchmark info] [published results] [support] [order benchmark]
Designed to provide performance measurements that can be used to compare compute-intensive
workloads on different computer
p
systems,
y
, SPEC CPU2006 contains two benchmark suites: CINT2006
for measuring and comparing compute-intensive integer performance, and CFP2006 for measuring and
comparing compute-intensive floating point performance.
SPEC CPUv6
[info]
The CPU Search Program seeks to to encourage those outside of SPEC to assist us in locating
applications that could be used in the next CPU-intensive benchmark suite, currently designated as SPEC
CPUv6.
42
sources d’informations permanentes
Le site officiel des mesures de perf
Des tests par produit/carte mère, pas juste par type de processeur :
Des résultats très détaillés :
Avec des conditions de tests très
documentés (ex : les options
de l’Os et du compilateur)
85
Notions d’architectures parallèles et distribuées
7 – Bilan statistique du Top-500
• Répartitions des types d’architectures
• Répartitions des technologies et familles
d processeurs
de
• Répartition des constructeurs
86
43
Bilan statistique du top-500
Evolution des technos. de procs. en 2002
Trop cher → disparu !
Market
processors !
87
Bilan statistique du top-500
Architecture des processeurs en 2009
88
44
Bilan statistique du top-500
Réseaux d’interconnexion en 2009
Gigabit-Eth vs Infiniband,
et un peu de propriétaire
Myrinet en difficulté,
Quadrics a fait faillite
89
Bilan statistique du top-500
Taille des machines en 2009
La taille dominante double tous
les deux ans!
En 2009, la plupart des
machines ont de 4096 à
8192 processeurs
90
45
Bilan statistique du top-500
Fabricants en 2009
IBM, HP et CRAY !
+ des assembleurs de clusters
CRAY fait des systèmes très
puissants
91
Bilan statistique du top-500
Installation en 2009
92
46
Bilan statistique du top-500
Segments de marché en 2009
De + en + de supercalculateurs
dans l’industrie
Des systèmes plus puissants
dans la recherche
93
architectures parallèles
Top 500 des supercalculateurs
A note on the Zipf distribution of Top500 supercomputers
Tue, 2007-01-02 11:42 Matei Ripeanu has an interesting brief
article [PDF] in IEEE Distributed Systems Online in which he
analyzes the shape of the Top500 list of supercomputers.
Trends inferred from the fastest supercomputers lists for the
last 13 years indicate that aggregating the computational
power of relatively small machines is becoming increasingly
rewarding It is thus no coincidence that Grid computing,
rewarding.
computing
which provides the infrastructure to build these controlled,
secure resource aggregations, continues to attract increasing
interest.
http://www.ece.ubc.ca/~matei/PAPERS/zipf-argument.pdf
Grids (et clouds) vs SuperCalculateurs : les 2 ont leurs places
94
47
Notions d’architectures parallèles et
distribuées
FIN
48