Savoir Modéliser les systèmes à grande échelle et
Transcription
Savoir Modéliser les systèmes à grande échelle et
Savoir Modéliser les systèmes à grande échelle et Valider leurs simulateurs Thème 7 Arnaud Legrand (Grenoble), Martin Quinson (Nancy) 5 octobre 2010 Simulating Distributed Systems Principle System Model Idea to test Experimental setup Scientific results 100000 Root 4 5 + ⇒ 2 5 6 4 3 10000 execution time (s) 3 + 2 1 1000 Default CPU Model Partial LMM Invalidation Lazy Action Management Trace Integration 100 10 1 0.1 0.01 6 0.001 number of simulated hosts Advantages I Less simplistic than proposed theoretical models (which are useful too) I Better XP control (; reproducible) than production systems (+ not disruptive) I Not as tedious, time/labor consuming than experimental platforms Plus: Lower technical burden; Quick and easy experiments; What if analysis I Main challenges I Validity: Get realistic results (controlled and understood experimental bias) I Scalability: Simulate fast enough problems big enough Usability: Associated Tools; Ease of use; Applicability to context of interest I A. Legrand, M. Quinson Modéliser les systèmes à grande échelle; valider les simulateurs Contexte 2/9 0 24 10 20 51 60 25 80 12 0 64 0 32 0 16 80 40 20 10 1 End Modéliser les systèmes à grande échelle Qu’est ce qu’un modèle I collection d’éléments + ensemble de règles régissant leurs interactions I Utilisable pour penser à propos de la réalité et faire des prédictions ⇒ Graal de tous les scientifiques Propriétés souhaités I Réaliste et Précis: capture la réalité à propos de l’objet d’intérêt I Manipulable (tractable): reste analysable dans les faits (taille raisonnable, algorithmes non-exponentiels, etc) I Instanciable: on sait décrire une plate-forme donnée dans ce formalisme Intuition: la simulation a trop de biais expérimentaux pour être utile I On pense qu’il est impossible d’avoir ainsi des prédictions à la nanoseconde A. Legrand, M. Quinson Modéliser les systèmes à grande échelle; valider les simulateurs Contexte 3/9 Modéliser les systèmes à grande échelle Qu’est ce qu’un modèle I collection d’éléments + ensemble de règles régissant leurs interactions I Utilisable pour penser à propos de la réalité et faire des prédictions ⇒ Graal de tous les scientifiques Propriétés souhaités I Réaliste et Précis: capture la réalité à propos de l’objet d’intérêt I Manipulable (tractable): reste analysable dans les faits (taille raisonnable, algorithmes non-exponentiels, etc) I Instanciable: on sait décrire une plate-forme donnée dans ce formalisme Intuition: la simulation a trop de biais expérimentaux pour être utile I On pense qu’il est impossible d’avoir ainsi des prédictions à la nanoseconde I Effectivement, c’est impossible. I Mais une expérience sur Grid’5000 ne permet pas de prédire le comportement sur Egee. Même pas à la minute près. A. Legrand, M. Quinson Modéliser les systèmes à grande échelle; valider les simulateurs Contexte 3/9 Validity Challenge Context: Models in most simulators are either simplistic, wrong or not assessed I PeerSim: discrete time, application=automaton; GridSim: naive packet level I OptorSim, GroudSim: documented as wrong on heterogeneous platforms Quality Levels of Validity I Level -1: not validated (probably plainly wrong) I Level 0 (visually ok): a few curves that look similar (generally hides a lot) I Level 1 (ratios ok): A < B in Simulation ⇔ A < B in Reality I I Level 2 (prediction abilities): bounded distance between simul. and reality Orthogonal to this: need to assess when the model is valid (validity domain) I Validity eval: tricky, requires meticulous attention & sound methodology SimGrid validity 2 years ago: Research focus in SimGrid since 2002 Setting: Synthetic App. + Synthetic WAN; Compare vs. packet-level simulator I Error in percents if: TCP steady state (flows > 10Mb), latency-bound (WAN) I Wrong estimations when capacity-bound (suspect: max-min sharing) A. Legrand, M. Quinson Modéliser les systèmes à grande échelle; valider les simulateurs Contexte 4/9 Current Work on Validity in SimGrid First Step: Synthetic App. + Synthetic WAN. Compare against GTNetS I Some errors were hunted down + unexpected phenomenon were understood ; The model and its instanciation were considerably improved Widen validity range to flows > 100Kb and WAN with small latencies I Sharing mechanism from theoretical literature experimentally proved wrong A. Legrand, M. Quinson Modéliser les systèmes à grande échelle; valider les simulateurs Current Work 5/9 Current Work on Validity in SimGrid First Step: Synthetic App. + Synthetic WAN. Compare against GTNetS I Some errors were hunted down + unexpected phenomenon were understood ; The model and its instanciation were considerably improved Widen validity range to flows > 100Kb and WAN with small latencies I Sharing mechanism from theoretical literature experimentally proved wrong Going Further: developed SMPI ; Real App. (NAS PB) + clusters (LAN) I Good prediction for short messages is crucial (piecewise linear) I Need to accurately implement/model collective operation algorithms I Evaluating weight of computation phases tricky, numerical instabilities deadly I Need to account for MPI overhead; what is Real with several MPI implems? IS Class B 20 OpenMPI SMPI before SMPI now 18 16 Time (s) 14 12 10 8 6 4 2 0 A. Legrand, M. Quinson Modéliser les systèmes à grande échelle; valider les simulateurs 2 Current Work 4 8 Amount of procs 16 32 5/9 Pourquoi est-ce si dur? En informatique I Mesures très sensibles aux conditions extérieurs et initiales I Évolution technologique invalide rapidement les mesures ⇒ Encore plus de précautions nécessaires lors de la manipulation de modèles ⇒ Il faut vérifier la validité des modèles, détailler les conditions de mesures Pratiques actuelles rarement irréprochables I Domaine de validité des modèles flou; Usage des modèles à tors et à travers I Utilisation de simulateur sans réflexion sur la validité du modèle Modéliser la bonne chose A theory has only the alternative of being right or wrong. A model has a third possibility: it may be right, but irrelevant. – Manfred Eigen A. Legrand, M. Quinson Modéliser les systèmes à grande échelle; valider les simulateurs Current Work 6/9 Axes de recherche Défi 1: Un instrument scientifique pour les spécialistes du domaine ⇒ Kernel de simulation de systèmes à large échelle ⇒ Modèles validés (ie, marge d’erreur connue selon l’intervale de paramètres) I Mise au point d’un framework théorique pour valider un modèle I Grid’5000 est l’outil parfait pour ces études Défi 2: Reconstruire une description fiable du système Grid’5000 I Parallèle à l’Observatoire des Grilles pour Grid’5000 I (plus des générateurs synthétiques et un cartographe automatique) Rapports étroits avec le Working Group 6 (expérimentation) I I Mêmes problèmes; la simulation ; moins de problèmes techniques Simterpose = émulation par simulation et non par resource trashing A. Legrand, M. Quinson Modéliser les systèmes à grande échelle; valider les simulateurs Axes de travail 7/9 Par rapport à Héméra (1/2) Nos besoins vis-à-vis d’Héméra I Une description précise, dynamique, de niveau applicatif de Grid’5000 I Matériel: aucun (G5K actuel amplement suffisant – hétérogénéité?) I Humain: aucun (maintenance d’instruments scientifiques lourds, mais ANR, ADT) Ce que nous apportons I I Un défrichage des plans d’expériences en informatique Outils associés mis au point dans des conditions plus simples I I I I Visualisation: la suite de Pajé Post-processing: analyse semi-automatique et comparaison de traces Des briques expérimentales comme simterpose Des contacts avec les grilles de production I I Dans SimGLite, simulation et émulation sont deux approches complémentaires SimData ouvre les portes du CERN A. Legrand, M. Quinson Modéliser les systèmes à grande échelle; valider les simulateurs Vs. Héméra 8/9 Autres interactions au sein d’Héméra SimGrid est un bon terrain de jeu pour certains d’entre vous I P2P-Churn: SimGrid utilise des traces de panne; intégration/tests de modèles? I Energy: Ca fait quasi 2 ans qu’on dit que je vais le faire (honte, honte) I COP: 140,000 processus sur une seule machine, c’est (dur mais) possible A. Legrand, M. Quinson Modéliser les systèmes à grande échelle; valider les simulateurs Vs. Héméra 9/9 Autres interactions au sein d’Héméra SimGrid est un bon terrain de jeu pour certains d’entre vous I P2P-Churn: SimGrid utilise des traces de panne; intégration/tests de modèles? I Energy: Ca fait quasi 2 ans qu’on dit que je vais le faire (honte, honte) I COP: 140,000 processus sur une seule machine, c’est (dur mais) possible Conclusion: l’avenir du WG7 d’Héméra I Fin WG validation; Intégration de approche expérimentale par simulation? I Renommer le WG pour redécouper? I Ignorer les ptits problèmes de nommage et avancer comme ça? je n’ai pas vraiment de réponse. . . A. Legrand, M. Quinson Modéliser les systèmes à grande échelle; valider les simulateurs Vs. Héméra 9/9