Speicher-Performance Xeon E5-2600/4600 basierter Systeme
Transcription
Speicher-Performance Xeon E5-2600/4600 basierter Systeme
WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME WHITE PAPER FUJITSU PRIMERGY SERVER SPEICHER-PERFORMANCE XEON E5-2600/4600 (SANDY BRIDGE-EP) BASIERTER SYSTEME Die Xeon E5-2600/4600 (Sandy Bridge-EP) basierten PRIMERGY Modelle beziehen ihre eindrucksvolle Leistungssteigerung auch aus einer Stärkung der seit zwei Systemgenerationen bewährten QuickPath Interconnect (QPI) Speicherarchitektur. Dieses White Paper erläutert die geänderten Architekturparameter und quantifiziert deren Auswirkung auf die Performance kommerzieller Anwendungen. Version 1.2 2012-12-07 © Fujitsu Technology Solutions 2012 Seite 1 (19) WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 Inhalt Dokumenthistorie ................................................................................................................................................ 2 Einleitung ............................................................................................................................................................ 3 Speicherarchitektur ............................................................................................................................................. 4 DIMM Steckplätze ........................................................................................................................................... 4 DIMM Typen .................................................................................................................................................... 5 Festlegung der Speicherfrequenz ................................................................................................................... 7 BIOS Parameter .............................................................................................................................................. 8 Performante Speicherbestückungen .................................................................................................................. 9 Performance Mode Konfigurationen ............................................................................................................... 9 Independent Mode Konfigurationen .............................................................................................................. 12 Symmetrische Speicherbestückungen .......................................................................................................... 12 Quantitative Auswirkungen auf die Speicher-Performance .............................................................................. 13 Die Messtools ................................................................................................................................................ 13 Interleaving über die Speicherkanäle ............................................................................................................ 14 Speicherfrequenz .......................................................................................................................................... 15 Interleaving über die Ranks .......................................................................................................................... 16 Zugriff auf fernen Speicher ........................................................................................................................... 17 Speicher-Performance unter Redundanz ..................................................................................................... 18 Literatur ............................................................................................................................................................. 19 Kontakt .............................................................................................................................................................. 19 Dokumenthistorie Version 1.0 (2012-03-23) Urfassung Version 1.1 (2012-09-07) Berücksichtigung der Xeon E5-4600 basierten PRIMERGY RX500 S7 Version 1.2 (2012-12-07) Präzisierung im Abschnitt über die Festlegung der Speicherfrequenz Seite 2 (19) © Fujitsu Technology Solutions 2012 WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 Einleitung Die aktuelle Generation der Dual Socket PRIMERGY Server, die mit Intel Xeon E5-2600 (Sandy Bridge-EP) Prozessoren ausgestattet ist, bringt eine Leistungssteigerung von bis zu 70%, in technischwissenschaftlichen Anwendungen bis 120%. Die Steigerung ergibt sich aus einer neuen Mikroarchitektur mit bis zu acht Kernen pro Prozessor, einer Stärkung des Speichersystems und einer neuen I/O-Anbindung über on-chip PCIe. Die 32-nm-Fertigungstechnologie wird von der Xeon 5600 (Westmere-EP) basierten Vorgängergeneration übernommen. Die nahe verwandte Intel Xeon E5-4600 (ebenfalls Sandy Bridge-EP) Prozessorserie ermöglicht darüber hinaus die Skalierung auf vier Prozessoren derselben Prozessorgeneration. Die hierauf basierende neue PRIMERGY RX500 S7 ergänzt den Xeon E7-4800 (Westmere-EX) basierten 4-Socket Server PRIMERGY RX600 S6 [L6]. Die bewährten Grundzüge der Speicherarchitektur der Vorgängergenerationen Nehalem-EP und WestmereEP sind beibehalten. Die Prozessoren haben on-chip Speicher-Controller, d.h. jeder Prozessor steuert eine Gruppe ihm zugeordneter Speichermodule. Dieser lokale Speicherzugriff ist sehr performant. Gleichzeitig ist der Prozessor in der Lage, über unidirektionale, serielle QPI (QuickPath Interconnect) Links benachbarten Prozessoren Speicherinhalte zur Verfügung zu stellen und solche selbst anzufordern. Der ferne Zugriff ist etwas weniger performant. Diese Architektur mit ihrer Unterscheidung zwischen lokalem und fernem Speicherzugriff ist vom Typ NUMA (Non-Uniform Memory Access). Die Parameter der Speicherarchitektur wurden angepasst, um der gestiegenen Rechenleistung der Prozessoren Rechnung zu tragen. Es gibt vier statt bisher drei Speicherkanäle pro Prozessor. Die maximale Speicherfrequenz wird von 1333 auf 1600 MHz erhöht. Bei den Dual Socket PRIMERGY Modellen werden die Prozessoren mit zwei statt einem QPI Link-Paar verbunden. Die maximale QPI Taktung beträgt 8.0 statt 6.4 GT/s (Gigatransfers per second). Seit der Einführung der QPI Architektur mit den Xeon 5500 (NehalemEP) basierten Systemen im März 2009 handelt es sich um die erste Anpassung dieser Parameter. Die elementarste Kennzahl der Speicher-Performance, die Speicherbandbreite, verdoppelt sich hierdurch für den Dual Socket Server von etwa 40 auf 80 GB/s. Für die Konfiguration möglichst leistungsfähiger Systeme ist eine Grundkenntnis der Speicherarchitektur erforderlich, die in diesem White Paper vermittelt werden soll. Es geht um folgende Punkte: Wegen der NUMA Architektur sollten alle Prozessoren so weit wie möglich gleich mit Speicher bestückt werden. Diese Maßnahme zielt darauf ab, dass jeder Prozessor in der Regel auf seinem lokalen Speicher arbeitet. Zur Parallelisierung und damit Beschleunigung des Speicherzugriffs wird angestrebt, auch eng benachbarte Bereiche des physikalischen Adressraums über mehrere Komponenten des Speichersystems zu verteilen. Der zugehörige Fachbegriff ist Interleaving. Das Interleaving gibt es in zwei Dimensionen. Zunächst in die Breite über die vier Speicherkanäle pro Prozessor. Die „Performance Mode“ Bestückung des PRIMERGY-Konfigurators in Vierergruppen von DIMMs (Dual Inline Memory Module) desselben Typs an jedem Prozessor sorgt für das optimale Interleaving in dieser Richtung. Darüber hinaus gibt es ein Interleaving in der Tiefe des einzelnen Speicherkanals. Die entscheidenden Speicherressourcen hierfür sind die sogenannten Ranks. Dies sind Unterstrukturen der DIMMs, in denen Gruppen von DRAM (Dynamic Random Access Memory) Chips zusammengefasst sind. Der einzelne Speicherzugriff bezieht sich stets auf eine solche Gruppe. Die Speichertaktung beeinflusst die Performance. Sie beträgt 1600, 1333, oder 1066 MHz in Abhängigkeit von Prozessortyp, DIMM Typ und Anzahl. Darüber hinaus lässt sich die Taktung zugunsten des Energieverbrauchs per BIOS Einstellung auf 800 MHz absenken. Sehr große Speicherkapazitäten und der low-voltage Energiesparmodus der Speichermodule begrenzen die Speichertaktung. Aus diesem Grund sind die drei Aspekte Performance, Kapazität und Energieverbrauch gegeneinander abzuwägen. Einflussfaktoren werden benannt und quantifiziert. Die Quantifizierung erfolgt mit Hilfe der Benchmarks STREAM und SPECint_rate_base2006. STREAM misst die Speicherbandbreite. SPECint_rate_base2006 dient als Modell für die Performance kommerzieller Anwendungen. Es zeigt sich, dass die prozentualen Einflüsse abhängig von der Leistungsstärke der Prozessoren sind. Die in diesem Dokument behandelten Fragen der Speicherkonfiguration sollten umso sorgfältiger bedacht werden, ja stärker das konfigurierte Prozessormodell ist. Den Abschluss des Dokuments machen Aussagen zur Speicher-Performance unter Redundanz, d.h. bei aktiviertem Mirroring oder Rank Sparing. © Fujitsu Technology Solutions 2012 Seite 3 (19) WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 Speicherarchitektur Dieses Kapitel gibt in vier Abschnitten einen Überblick über das Speichersystem. Anhand von Blockdiagrammen wird die Anordnung der verfügbaren DIMM Steckplätze erläutert. Im zweiten Abschnitt werden die verfügbaren DIMM Typen aufgelistet. Es folgt ein Abschnitt über die Einflüsse auf die effektive Speicherfrequenz. Der vierte Abschnitt behandelt die das Speichersystem betreffenden BIOS Parameter. DIMM Steckplätze Die folgenden Grafiken zeigen den Aufbau des Speichersystems. Die erste Grafik betrifft die Dual Socket PRIMERGY Modelle und enthält Erläuterungen und Bandbreitenangaben zu den einzelnen Speicherressourcen. Die zweite Grafik betrifft die PRIMERGY RX500 S7. Die Detailangaben sind der Übersichtlichkeit halber weggelassen, gelten aber wie bei den Dual Socket Modellen. Alle Xeon E5-2600/4600 basierten PRIMERGY Server haben 12 DIMM Steckplätze pro Prozessor. Es gibt stets vier Speicherkanäle pro Prozessor. Die Anzahl der pro Kanal bestückten DIMM Streifen beeinflusst die Speichertaktung und damit die Speicher-Performance. Diese Größe, auf die im Folgenden häufig Bezug genommen wird, wird mit DPC (DIMMs per channel) bezeichnet. Sind die Kanäle verschieden bestückt, so ist der größte vorkommende DPC Wert für die Auswirkung der Speicherbestückung auf die Taktung ausschlaggebend. Ein weiterer im Folgenden verwendeter Begriff ist die Speicherbank. Wie in der Grafik zu sehen ist, bildet eine Gruppe von vier über die Kanäle verteilten DIMM Streifen eine Bank. Die Farbgebung der Grafik (schwarz, blau, grün) entspricht der farblichen Markierung der Bänke auf den Motherboards der Server, die Fehler bei der Bestückung verhindern soll. Bei der Verteilung der DIMM Streifen über die pro Prozessor verfügbaren Steckplätze ist es wünschenswert, mit Bank 1 zu beginnen und bankweise vorzugehen, um ein möglichst gutes Interleaving über die Kanäle zu erreichen. Das Interleaving ist ein Haupteinfluss auf die Speicher-Performance. DIMM slot designation of Xeon E5-2600 based 2-way PRIMERGY models DMI2 connectivity to Intel C600 series chipset GT/s = Gigatransfers per second GB/s = Gigabytes per second PCIe GEN3 connectivity up to 40 lanes per CPU allocation depending on server model CPU 1 DDR3 memory channel with up to 3DPC 1600 or 1333 or 1066 or 800 MHz 12.8 or 10.6 or 8.5 or 6.4 GB/s (half duplex) depending on CPU and DIMM type, DPC value and BIOS setting PCIe GEN3 connectivity up to 40 lanes per CPU allocation depending on server model Two bidirectional QPI links, each: 8.0 or 7.2 or 6.4 GT/s 16.0 or 14.4 or 12.8 GB/s (full duplex) depending on CPU model Memory Controller CPU 2 Memory Controller Bank 3 if used, max frequency is 1066 MHz Bank 2 max frequency 1600 MHz DIMM 3A DIMM 3B DIMM 3C DIMM 3D DIMM 3E DIMM 3F DIMM 3G DIMM 3H DIMM 2A DIMM 2B DIMM 2C DIMM 2D DIMM 2E DIMM 2F DIMM 2G DIMM 2H DIMM 1A DIMM 1B DIMM 1C DIMM 1D DIMM 1E DIMM 1F DIMM 1G DIMM 1H Bank 1 max frequency 1600 MHz Channel A Channel B Channel C Channel D Seite 4 (19) Channel E Channel F Channel G Channel H © Fujitsu Technology Solutions 2012 WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 DIMM slot designation of Xeon E5-4600 based PRIMERGY RX500 S7 optional CPU 4 CPU 3 Memory Controller Memory Controller DIMM 3N DIMM 3P DIMM 3Q DIMM 3R DIMM 3J DIMM 3K DIMM 3L DIMM 3M DIMM 2N DIMM 2P DIMM 2Q DIMM 2R DIMM 2J DIMM 2K DIMM 2L DIMM 2M DIMM 1N DIMM 1P DIMM 1Q DIMM 1R DIMM 1J DIMM 1K DIMM 1L DIMM 1M CPU 1 CPU 2 Memory Controller Memory Controller DIMM 3A DIMM 3B DIMM 3C DIMM 3D DIMM 3E DIMM 3F DIMM 3G DIMM 3H DIMM 2A DIMM 2B DIMM 2C DIMM 2D DIMM 2E DIMM 2F DIMM 2G DIMM 2H DIMM 1A DIMM 1B DIMM 1C DIMM 1D DIMM 1E DIMM 1F DIMM 1G DIMM 1H Der zugehörige Prozessor muss vorhanden sein, um DIMM Steckplätze verwenden zu können. Ist keine Maximalkonfiguration gegeben, können die den leeren CPU Sockets zugeordneten Steckplätze nicht benutzt werden. DIMM Typen Für die Speicherbestückung kommen DIMM Streifen gemäß der folgenden Tabelle in Betracht. Es gibt unbuffered (UDIMM), registered (RDIMM) und load-reduced (LRDIMM) DIMMs. Mischkonfigurationen aus diesen drei DIMM Arten sind nicht möglich. Die Tabelle vermerkt in der letzten Spalte, welche DIMMs auch in der PRIMERGY RX500 S7 verfügbar sind. UDIMMs haben auf Grund einfacherer Bauweise eine geringere maximale Kapazität. Die einfachere Bauweise bringt Vorteile bei Zugriffslatenz und Energieverbrauch, jedoch auch die Einschränkung, dass 3DPC Konfigurationen nicht möglich sind. Bei RDIMMs werden die Steuerbefehle des Speicher-Controllers in dem namengebenden Register, das sich in einem eigenen Baustein auf dem DIMM befindet, zwischengepuffert. Dies bewirkt eine Entlastung des Speicherkanals und ermöglicht 3DPC Konfigurationen, die mit UDIMMs nicht möglich sind. Bei allen DIMM Typen werden Daten in Einheiten von 64 Bit übertragen. Dies ist eine Eigenschaft der DDR3-SDRAM Speichertechnologie. Ein Speicherbereich dieser Breite wird auf dem DIMM aus einer Gruppe von DRAM Chips aufgebaut, wobei der einzelne Chip für 4 oder 8 Bit zuständig ist (siehe die Kürzel x4 bzw. x8 in der Typenbezeichnung). Eine solche Chip-Gruppe wird als Rank bezeichnet. Es gibt DIMM Typen mit 1, 2 oder 4 Ranks entsprechend der Tabelle. Die Anzahl der pro Speicherkanal vorhandenen Ranks hat einen gewissen Performance-Einfluss, der unten erläutert wird. Der x4 oder x8 Aufbau der DIMMs beeinflusst die ECC-Erkennbarkeit von Speicherfehlern, die korrigierbar oder nicht korrigierbar sein können. Aus diesem Grund kann der 4GB 2Rx8 PC3L-12800R RDIMM der Tabelle mit den anderen verfügbaren RDIMMs, die alle x4 sind, nicht gemischt werden. © Fujitsu Technology Solutions 2012 Seite 5 (19) VERSION: 1.2 2012-12-07 RX500 S7 WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME Ranks Kapazität rel. Preis pro GB 1.5 / 1.35 1 2 GB 1.5 1600 1.5 / 1.35 2 4 GB 1.1 registered 1333 1.5 / 1.35 1 4 GB 1.3 4GB 1Rx4 PC3L-12800R 4GB (1x4GB) 1Rx4 L DDR3-1600 R ECC registered 1600 1.5 / 1.35 1 4 GB 1.4 x 4GB 2Rx8 PC3L-12800R 4GB (1x4GB) 2Rx8 L DDR3-1600 R ECC registered 1600 1.5 / 1.35 2 4 GB 1.4 x 8GB 2Rx4 PC3L-10600R 8GB (1x8GB) 2Rx4 L DDR3-1333 R ECC registered 1333 1.5 / 1.35 2 8 GB 1.0 8GB 2Rx4 PC3L-12800R 8GB (1x8GB) 2Rx4 L DDR3-1600 R ECC registered 1600 1.5 / 1.35 2 8 GB 1.2 x 16GB 2Rx4 PC3L-12800R 16GB (1x16GB) 2Rx4 L DDR3-1600 R ECC registered 1600 1.5 / 1.35 2 16 GB 1.3 x 16GB 4Rx4 PC3L-10600L 16GB (1x16GB) 4Rx4 L DDR3-1333 LR ECC load reduced 1333 1.5 / 1.35 4 16 GB 1.5 x 32GB 4Rx4 PC3L-10600L 32GB (1x32GB) 4Rx4 L DDR3-1333 LR ECC load reduced 1333 1.5 / 1.35 4 32 GB 3.5 x Ansteuerung max Frequenz (MHz) Volt 2GB 1Rx8 PC3L-12800E 2GB (1x2GB) 1Rx8 L DDR3-1600 U ECC unbuffered 1600 4GB 2Rx8 PC3L-12800E 4GB (1x4GB) 2Rx8 L DDR3-1600 U ECC unbuffered 4GB 1Rx4 PC3L-10600R 4GB (1x4GB) 1Rx4 L DDR3-1333 R ECC DIMM-Typ (JEDEC / SystemArchitect) Die Motivation für quad-rank DIMMs sind große Speicherkapazitäten. Die erstmals eingeführten LRDIMMs ersetzen die hierfür bisher üblichen quad-rank RDIMMs, die auf 2DPC Konfigurationen begrenzt waren, weil pro Speicherkanal maximal 8 Ranks unterstützt werden. In LRDIMMs werden außer den Steuerbefehlen auch die Daten selbst in einem auf dem DIMM befindlichen Baustein zwischengepuffert. Darüber hinaus kann die Rank Multiplication Funktion dieses DIMM Typs mehrere physikalische Ranks auf einen virtuellen abbilden. Der Speicher-Controller sieht dann nur virtuelle Ranks. Diese Funktion wird im Fall von 3DPC Konfigurationen mit LRDIMMs angewendet. 3DPC Konfigurationen mit quad-rank Modulen, die die maximale Speicherkapazität erheblich erweitern, sind eine Neuerung der Xeon E5-2600/4600 basierten Servergeneration. Die Entscheidung für eine der Typengruppen UDIMM, RDIMM oder LRDIMM wird in der Regel auf Basis der benötigten Speicherkapazität fallen. Die Performance-Einflüsse Taktung und Anzahl der Ranks gibt es bei allen drei Typen in gleicher Weise; diese Einflüsse sind typenunabhängig. Typenspezifische PerformanceEinflüsse gibt es; sie sind aber so gering, dass sie in den meisten Fällen außer Acht bleiben können. Drei Beispiele für typenspezifische Einflüsse seien an dieser Stelle genannt. Eine systematische quantitative Untersuchung folgt unten wegen Geringfügigkeit jedoch nicht: Die zunehmende Komplexität der DIMM Arten UDIMM, RDIMM und LRDIMM durch zusätzliche auf dem DIMM befindliche Bauteile ist mit einem leichten Anstieg der Zugriffslatenz in der Größenordnung einiger weniger Nanosekunden verbunden. Die höhere Belastung der Speicherkanäle durch UDIMMs führt in 2DPC Konfigurationen zum sogenannten 2N Timing: Adressbefehle an den DIMM sind nur noch bei jedem zweiten Takt des Speicherkanals möglich. Dies reduziert die maximale Speicherbandbreite um einige wenige Prozent. Eine Auswirkung auf die Anwendungs-Performance ist jedoch unwahrscheinlich. Die Rank Multiplication bei 3DPC Bestückungen mit LRDIMMs führt ebenfalls zu einem Abschlag auf die maximale Speicherbandbreite und zu einer Reduktion der Anwendungs-Performance – im Vergleich zu 3DPC Bestückungen mit RDIMMs – von unter 5%. Alle angebotenen DIMM Typen lassen sich mit 1.5 V oder energiesparenden 1.35 V betreiben. Der 1.35 V Betrieb ist jedoch bei 3DPC Konfigurationen nicht möglich und kann eine Reduzierung der Speicherfrequenz Seite 6 (19) © Fujitsu Technology Solutions 2012 WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 und damit der Speicher-Performance bedeuten. Der folgende Abschnitt über die Speicherfrequenz beleuchtet diesen Zusammenhang. Die effektive Frequenz einer gegebenen Konfiguration ist von einer Reihe von Einflüssen abhängig. Die in der DIMM Typentabelle angegebene maximale Frequenz ist lediglich als obere Grenze für diese effektive Frequenz zu verstehen. Die Tabelle gibt in der vorletzten Spalte eine Orientierung zu den relativen Preisunterschieden. Zugrunde gelegt sind die Listenpreise der PRIMERGY RX300 S7 im September 2012. Die Spalte zeigt den relativen Preis pro GB, normiert auf den registered PC3L-10600R DIMM der Größe 8 GB (hervorgehoben als Maßstab 1). Das Bild der relativen Preise unterliegt seit der Einführung des DDR3-SDRAM Speichers einem steten Wandel. Etwas geringer sind derzeit die Kosten für 1333 MHz RDIMMs, höherpreisig sind die neuen LRDIMMs. Hinsichtlich der Verfügbarkeit einzelner DIMM Typen kann es je nach PRIMERGY Modell Einschränkungen geben. Ausschlaggebend ist stets der aktuelle Konfigurator. Außerdem sind Einschränkungen der Verfügbarkeit je nach Vertriebsregion möglich. Festlegung der Speicherfrequenz Für die Taktung des Speichers gibt es die vier möglichen Werte 1600, 1333, 1066 oder 800 MHz. Die Taktung wird vom BIOS beim Einschalten des Systems festgelegt und gilt pro System, nicht pro Prozessor. Für die Festlegung ist zunächst das konfigurierte Prozessormodell von Bedeutung. Die Xeon E5-2600/4600 Modelle fallen in drei Klassen mit jeweils einer Obergrenze für die Speicherfrequenz entsprechend der folgenden Tabelle: CPU Typ maximale Speicherfrequenz (MHz) QPI (GT/s) Xeon E5-2600 Modelle Advanced 1600 8.0 E5-2690, E5-2680, E5-2670, E5-2665, E5-2660, E5-2650, E5-2650L, E5-2667, E5-2643, E5-2637 E5-4650, E5-4640, E5-4650L Standard 1333 7.2 E5-2640, E5-2630, E5-2620, E5-2630L E5-4620, E5-4610, E5-4617 Basic 1066 6.4 E5-2609, E5-2603 E5-4607, E5-4603 Xeon E5-4600 Modelle Außerdem begrenzen DIMM Typ und DPC Wert der Speicherkonfiguration die Taktung. Prozessortyp, DIMM Typ und DPC Wert sind harte Einflüsse auf die Speichertaktung, die sich per BIOS nicht übersteuern lassen. Der BIOS-Parameter „DDR Performance“ erlaubt jedoch die Abwägung zwischen Performance und Energieverbrauch. Erfolgt die Abwägung zugunsten von Performance, so ergibt sich die effektive Speicherfrequenz entsprechend folgender Tabelle. Hierbei sind die Spalten für UDIMMs und 1333 MHz RDIMMs für die PRIMERGY RX500 S7 nicht relevant. DDR Performance = Performance optimized (Default) graue Schattierung: 1.5V – keine Schattierung: 1.35V UDIMM 1600 MHz CPU Typ RDIMM 1600 MHz RDIMM 1333 MHz LRDIMM 1333 MHz 2DPC 3DPC 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC Advanced 1333 1 1333 n/a 1600 1600 1066 1333 1333 1066 1333 1333 1066 Standard 1333 1333 n/a 1333 1333 1066 1333 1333 1066 1333 1333 1066 Basic 1066 1066 n/a 1066 1066 1066 1066 1066 1066 1066 1066 1066 1 1DPC 1600 MHz auf Sonderfreigabe Die folgende Tabelle gilt, wenn energiesparendem 1.35 V low-voltage Betrieb der Vorrang gegeben wird. Es sei jedoch daran erinnert, dass 1.35 V Betrieb tatsächlich nur in 1DPC und 2DPC Konfigurationen eintritt. © Fujitsu Technology Solutions 2012 Seite 7 (19) WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 DDR Performance = Low-voltage optimized graue Schattierung: 1.5V – keine Schattierung: 1.35V UDIMM 1600 MHz RDIMM 1600 MHz RDIMM 1333 MHz LRDIMM 1333 MHz CPU Typ 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC Advanced 1066 1 1066 n/a 1333 1333 1066 1333 1333 1066 1066 1066 1066 Standard 1066 1066 n/a 1333 1333 1066 1333 1333 1066 1066 1066 1066 Basic 1066 1066 n/a 1066 1066 1066 1066 1066 1066 1066 1066 1066 1 1333 MHz auf Sonderfreigabe Die geringste Speicher-Performance ergibt sich bei der dritten Belegung: DDR Performance = Energy optimized graue Schattierung: 1.5V – keine Schattierung: 1.35V UDIMM 1600 MHz RDIMM 1600 MHz RDIMM 1333 MHz LRDIMM 1333 MHz CPU type 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC Advanced 800 800 n/a 800 800 800 800 800 800 800 800 800 Standard 800 800 n/a 800 800 800 800 800 800 800 800 800 Basic 800 800 n/a 800 800 800 800 800 800 800 800 800 Soweit die Beschreibung der mit der Speicherfrequenz zusammenhängenden Funktionalität. Quantitative Aussagen, was unterschiedliche Frequenzen für die kommerzielle Anwendungs-Performance bedeuten, folgen unten. Ein Vorgriff auf die Ergebnisse lautet wie folgt. Die Einstellung Low-voltage optimized dürfte in vielen produktiven Anwendungsfällen am effizientesten sein, weil die mit Performance optimized erreichbare Performance-Steigerung geringfügig (1-2%) und nur bei sorgfältiger Messung nachweisbar ist. Für Energieeinsparung ist hauptsächlich der low-voltage Betrieb ausschlaggebend, weniger die Absenkung der Speicherfrequenz. Aus diesem Grund ist die Einstellung Energy optimized weniger interessant: während eine Reduzierung der Speicher-Performance sicher ist, bleibt eine über den 1.35 V Betrieb hinausgehende weitere Energieeinsparung eher ungewiss. BIOS Parameter Unter Advanced / Memory findet sich im BIOS ein die Speicherkonfiguration betreffendes Untermenü mit folgenden vier Parametern: Memory Mode: Independent / Mirroring / Sparing NUMA: enabled / disabled DDR Performance: Low-voltage optimized / Energy optimized / Performance optimized Patrol Scrub: enabled / disabled Der vierte Parameter ist Bestandteil der RAS (Reliability, Availability and Serviceability) Funktionalität und dient der laufenden Bereinigung von korrigierbaren Speicherfehlern. Der Default ist enabled. Der dritte Parameter DDR Performance wurde im letzten Abschnitt bereits ausführlich behandelt. Der NUMA-Parameter legt fest, ob der physikalische Adressraum aus Segmenten lokalen Speichers aufgebaut und das Betriebssystem über dessen Struktur informiert wird. Die Default-Einstellung ist enabled und sollte ohne triftigen Grund nicht verändert werden. Bei der PRIMERGY RX500 S7 sind die Nachteile der Deaktivierung von NUMA noch gravierender als bei den Dual Socket Servern, weshalb der Parameter bei diesem System fehlt. Der erste Parameter betrifft die Redundanzfunktionen. Werden diese Funktionen bei der Konfiguration in SystemArchitect angefordert, so erfolgt eine entsprechende werksseitige Voreinstellung. Ansonsten steht der Parameter auf independent (keine Redundanz). Quantitative Aussagen zur Auswirkung dieser Funktionen auf die Systemleistung folgen unten. Performance unter Redundanz sowie die Auswirkung von Redundanz auf die maximal mögliche Nettospeicherkapazität haben sich gegenüber den Xeon 5600 basierten Vorgängersystemen deutlich verbessert. Seite 8 (19) © Fujitsu Technology Solutions 2012 WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 Performante Speicherbestückungen Die folgenden Aussagen zu Speicherbestückungen orientieren sich an der Terminologie des PRIMERGY Konfigurators. Der erste Abschnitt gilt Bestückungen, die die Topologie des Speichersystems ideal ausnutzen und die beste Speicher-Performance liefern. Der Konfigurator bezeichnet sie als Performance Mode Konfigurationen. Performance Mode Konfigurationen In diesem Mode wird bankweise in Gruppen von vier DIMMs gleichen Typs bestückt. Damit wird eine Gleichbehandlung aller vier Speicherkanäle eines Prozessors erreicht. Der Speicherzugriff verteilt sich gleichmäßig über diese Ressourcen des Speichersystems. Technisch gesprochen entsteht das optimale 4-way Interleaving über die Speicherkanäle. Unter der zusätzlichen Annahme, dass alle Prozessoren gleich bestückt sind, gibt es im Performance Mode der 2-way PRIMERGY Server 16 verschiedene Speicherkapazitäten; bei der PRIMERGY RX500 S7 sind es 14. Der Unterschied ist dadurch bedingt, dass die PRIMERGY RX500 S7 keine UDIMMs, und damit keinen DIMM Typ der Größe 2 GB, unterstützt. Bei den 2-way Servern decken die Kapazitäten einen Bereich zwischen 16 und 768 GB ab, bei der PRIMERGY RX500 S7 zwischen 64 und 1536 GB. Die oberen Grenzen der Bereiche sind zugleich die jeweiligen Maximalkonfigurationen. Die beiden folgenden Tabellen listen diese Speicherkonfigurationen auf. Sie sind vollständig hinsichtlich der Kapazitäten, jedoch nicht notwendigerweise hinsichtlich der in Frage kommenden DIMM Typen. Beispielsweise wurden Optionen mit Kostennachteilen weggelassen. Performance Mode Konfigurationen Xeon E5-2600 basierte Server 1 CPU System 2 CPU System 8 GB 16 GB 16 GB 32 GB 24 GB 48 GB 32 GB 64 GB 48 GB 96 GB 64 GB 128 GB 80 GB 160 GB 96 GB 192 GB 112 GB 224 GB 128 GB 256 GB 144 GB 288 GB 160 GB 320 GB 192 GB 384 GB 256 GB DIMM Typ DIMM Kap. GB Bank 1 DIMM Kap. GB Bank 2 DIMM Kap. GB Bank 3 DPC Wert Max MHz Performance optimized Max Mhz Low-voltage optimized UDIMM 2 1 1600 1333 UDIMM 4 1 1600 1333 RDIMM 4 1 1600 1333 UDIMM 4 2 2 1333 1066 UDIMM 4 4 2 1333 1066 RDIMM 8 1 1600 1333 RDIMM 8 4 2 1600 1333 RDIMM 8 8 2 1600 1333 RDIMM 16 1 1600 1333 3 1066 1066 2 1600 1333 3 1066 1066 2 1600 1333 3 1066 1066 2 1600 1333 RDIMM 8 8 RDIMM 16 4 4 RDIMM 8 8 RDIMM 16 8 RDIMM 16 8 RDIMM 16 16 LRDIMM 16 16 2 1333 1066 RDIMM 16 16 4 3 1066 1066 RDIMM 16 16 8 3 1066 1066 16 8 4 RDIMM 16 16 3 1066 1066 LRDIMM 32 16 2 1333 1066 512 GB LRDIMM 32 32 2 1333 1066 320 GB 640 GB LRDIMM 32 32 16 3 1066 1066 384 GB 768 GB LRDIMM 32 32 32 3 1066 1066 © Fujitsu Technology Solutions 2012 Seite 9 (19) WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 Performance Mode Konfigurationen PRIMERGY RX500 S7 2 CPU System 4 CPU System DIMM Typ DIMM Kap. GB Bank 1 DIMM Kap. GB Bank 2 DIMM Kap. GB Bank 3 DPC Wert Max MHz Performance optimized Max Mhz Low-voltage optimized 1 1600 1333 32 GB 64 GB RDIMM 4 64 GB 128 GB RDIMM 8 1 1600 1333 96 GB 192 GB RDIMM 8 4 2 1600 1333 128 GB 256 GB RDIMM 8 8 2 1600 1333 RDIMM 16 1 1600 1333 RDIMM 8 8 3 1066 1066 RDIMM 16 4 2 1600 1333 RDIMM 8 8 3 1066 1066 RDIMM 16 8 2 1600 1333 RDIMM 16 8 3 1066 1066 160 GB 320 GB 192 GB 384 GB 224 GB 448 GB 256 GB 512 GB 288 GB 320 GB 4 8 4 RDIMM 16 16 2 1600 1333 LRDIMM 16 16 2 1333 1066 576 GB RDIMM 16 16 4 3 1066 1066 640 GB RDIMM 16 16 8 3 1066 1066 RDIMM 16 16 16 3 1066 1066 LRDIMM 32 16 2 1333 1066 384 GB 768 GB 512 GB 1024 GB LRDIMM 32 32 2 1333 1066 640 GB 1280 GB LRDIMM 32 32 16 3 1066 1066 768 GB 1536 GB LRDIMM 32 32 32 3 1066 1066 Die Tabellen enthalten insbesondere die klassischen Speichergrößen in Zweierpotenzen, d.h. 8, 16, 32, 64, 128 GB usw. Durch die Erhöhung von drei auf vier Speicherkanäle pro Prozessor in der neuen Systemgeneration ist die Besonderheit der Vorgängergenerationen, dass diese Speichergrößen einen leichten Performance-Nachteil bedeutet haben, wieder aufgehoben. Der Nachteil hatte sich dadurch ergeben, dass das optimale Interleaving über drei Speicherkanäle bei diesen Speichergrößen nicht möglich ist. Die folgenden Grafiken zeigen die Wechselwirkungen zwischen Speicherkapazität, Energieersparnis und maximal möglicher Speicher-Performance, ausgedrückt durch Speicherfrequenz. Die Grafik stellt dar, dass Kapazität und Energieersparnis in gewissem Umfang auf Kosten der Speicher-Performance gehen. Es sei aber daran erinnert, dass die Erreichbarkeit einer Speicherfrequenz auch vom konfigurierten Prozessortyp abhängt. Seite 10 (19) © Fujitsu Technology Solutions 2012 WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 Memory performance / capacity / energy tradeoff Xeon E5-2600 based PRIMERGY servers DDR Performance: Performance optimized DDR Performance: Low-voltage optimized Maximum Memory Speed (MHz) 1,600 1,333 1,066 800 16 32 48 64 96 128 160 192 224 256 288 320 384 512 640 768 Memory Capacities (GB) Memory performance / capacity / energy tradeoff PRIMERGY RX500 S7 DDR Performance: Performance optimized DDR Performance: low-voltage optimized Maximum Memory Speed (MHz) 1,600 1,333 1,066 800 64 128 192 256 320 384 448 512 576 640 768 1024 1280 1536 Memory Capacities (GB) © Fujitsu Technology Solutions 2012 Seite 11 (19) WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 Independent Mode Konfigurationen Hierunter fallen alle Konfigurationen, die weder im Performance Mode noch redundant sind. Außer den beiden Regeln, dass UDIMMs, RDIMMs und LRDIMMs, und RDIMMs der Bauweisen x4 und x8 nicht gemischt werden dürfen, gibt es hier keine Einschränkungen. Ein besonderes Augenmerk gilt Konfigurationen mit weniger als vier DIMMs pro Prozessor, also weniger als der Minimalzahl, die für Performance Mode Konfigurationen benötigt wird. Außer sehr geringen Speicherkapazitäten können Überlegungen zu weiterer Energieeinsparung Grund für solche Konfigurationen sein. Eine Ersparnis ergibt sich ja nicht nur durch 1.35 V Betrieb und Heruntertaktung einer gegebenen Speicherbestückung, sondern auch durch eine Minimierung der DIMM Anzahl. Die unten folgende quantitative Bewertung, wie sich eine Bestückung von weniger als vier Speicherkanälen auf die SystemPerformance auswirkt, legt nahe, vom 1-way Interleaving – dem entspricht eine Bestückung mit nur einem DIMM pro Prozessor – abzuraten. Die Fälle 2-way und 3-way – dem entsprechen zwei bzw. drei DIMMs pro Prozessor – können hingegen zu ausgewogenen Resultaten hinsichtlich Performance und Energieverbrauch führen. Symmetrische Speicherbestückungen In einem eigenen Abschnitt soll abschließend nochmals herausgestellt werden, alle konfigurierten Prozessoren nach Möglichkeit gleich mit Speicher zu bestücken und die NUMA = enabled Voreinstellung des BIOS ohne triftigen Grund nicht zu verändern. Nur so wird der QPI basierten Mikroarchitektur der Systeme Rechnung getragen. Selbstverständlich berücksichtigt eine werksseitige Vorinstallation diesen Sachverhält. Die bestellten Speichermodule werden so gleichmäßig wie möglich über die Prozessoren verteilt. Diese Maßnahmen und die damit zusammenhängende Unterstützung durch die Betriebssysteme schaffen die Voraussetzung, Anwendungen so weit wie möglich mit lokalem, performantem Speicher zu bedienen. In der Regel werden die Speicherzugriffe der Prozessorkerne auf DIMM Module erfolgen, die dem jeweiligen Prozessor unmittelbar zugeordnet sind. Zur Abschätzung, welchen Performance-Vorteil dies bedeutet, folgen unten Messergebnisse für den Fall, dass der Speicher eines 2-way Servers zwar symmetrisch bestückt ist, aber die BIOS Option NUMA = disabled gesetzt ist. Statistisch erfolgt dann jeder zweite Speicherzugriff auf fernen Speicher. Der bei asymmetrischer oder einseitiger Speicherbestückung mögliche Fall, dass eine Anwendung zu 100% mit fernem Speicher bedient wird, ist auf den doppelten PerformanceVerlust des 50/50% Falls zu taxieren. Seite 12 (19) © Fujitsu Technology Solutions 2012 WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 Quantitative Auswirkungen auf die Speicher-Performance Nach der mit qualitativen Hinweisen versehenen funktionalen Beschreibung des Speichersystems folgen nun konkrete Aussagen, mit welchem Performance-Gewinn oder -Verlust Unterschiede in der Speicherkonfiguration verbunden sind. Zur Vorbereitung behandelt der erste Abschnitt die beiden Benchmarks, die für eine Charakterisierung der Speicher-Performance herangezogen wurden. Dann folgen in der Reihenfolge ihres Gewichts die bereits genannten Merkmale Interleaving der Speicherkanäle, Speicherfrequenz und Interleaving der Ranks. Den Abschluss machen Messungen zum Fall NUMA = disabled und zur Speicher-Performance unter Redundanz. Die quantitative Untersuchung erfolgt jeweils getrennt für die Prozessorklassen Advanced, Standard und Basic. Die Messungen fanden auf einer PRIMERGY RX200 S7 mit zwei Prozessoren unter dem Betriebssystem Linux statt. Für die Prozessorklasse Advanced wurde stellvertretend der Prozessor Xeon E5-2670 verwendet, für Standard Xeon E5-2630 und für Basic Xeon E5-2603. Eine entsprechende Messreihe auf einer PRIMERGY RX500 S7 hat gezeigt, dass die quantitativen Verhältnisse mit einer Schwankung von 3% gleich sind wie bei den Dual Socket Servern. Aus diesem Grund enthalten die folgenden Tabellen nur die Ergebnisse der PRIMERGY RX200 S7. Die Tabellen zeigen relative Performance. Die absoluten Messwerte für die Benchmarks STREAM und SPECint_rate_base2006 unter idealen Speicherbedingungen, die in der Regel dem 1.0 Maßstab der hier folgenden Tabellen entsprechen, sind in den Performance Reports der einzelnen Xeon E5-2600/4600 basierten PRIMERGY Server enthalten. Ein wesentliches Ergebnis der Untersuchung soll von Anfang an klar herausgestellt werden. Der Performance-Einfluss ist umso stärker, und Konfigurationsdetails sind um so sorgfältiger abzuwägen, je stärker das verwendete Prozessormodell ist. Überlegungen, die für die leistungsfähigsten und teuersten Prozessoren der Klasse Advanced unumgänglich sind, sind für die Klasse Basic häufig vernachlässigbar. Die Messtools Es gab Messungen mit den Benchmarks STREAM und SPECint_rate_base2006. STREAM Benchmark Der STREAM Benchmark von John McCalpin [L3] ist ein Tool zur Messung von Speicherdurchsatz. Der Benchmark führt Kopier- und Rechenoperationen auf großen Arrays vom Datentyp double durch und weist Ergebnisse für vier Zugriffstypen Copy, Scale, Add und Triad aus. Die letzten drei beinhalten Rechenoperationen. Das Ergebnis ist stets ein in GB/s angegebener Speicherdurchsatz. Triad Werte werden am häufigsten zitiert. Alle im Folgenden zur Quantifizierung von Speicher-Performance verwendeten STREAM Messwerte folgen dieser Praxis und sind GB/s für den Zugriffstyp Triad. STREAM ist der Industriestandard für die Messung der Speicherbandbreite von Servern, bekannt für seine Fähigkeit, Speichersysteme mit einfachen Mitteln unter größtmögliche Last zu setzen. Es ist offensichtlich, dass dieser Benchmark besonders geeignet für den hier vorliegenden Zweck ist, Einflüsse auf die SpeicherPerformance in einem komplexen Konfigurationsraum auszuloten. In jedem Fall wird STREAM die maximale Performance-Auswirkung einer den Speicher betreffenden Konfigurationsmaßnahme zeigen, sowohl für Verschlechterungen als auch Verbesserungen. Die im Folgenden genannten prozentualen Verhältnisse beim STREAM Benchmark sind somit als Schranken für Performance-Effekte zu verstehen. Beim Einfluss des Speichers auf die Anwendungs-Performance wird unterschieden zwischen der Latenz des einzelnen Zugriffs und der von der Anwendung benötigten Bandbreite. Die Größen hängen zusammen, weil die reale Latenz mit zunehmender Bandbreite ansteigt. Weiter hängt es von der Anwendung und der Qualität des vom Compiler erzeugten Maschinencodes ab, in welchem Umfang die Latenz durch eine Parallelisierung des Speicherzugriffs „verborgen“ werden kann. Pauschale Prognosen für alle Anwendungsszenarien sind vor diesem Hintergrund sehr schwer. SPECint_rate_base2006 Der Benchmark SPECint_rate_base2006 wurde als Modell für kommerzielle Anwendungs-Performance hinzugezogen. Er ist ein Bestandteil von SPECcpu2006 [L4] der Standard Performance Evaluation Corporation (SPEC). SPECcpu2006 ist der Industriestandard für die Vermessung der Systemkomponenten Prozessor, Speicherhierarchie und Compiler. Nach der großen Menge veröffentlichter Ergebnisse und deren intensiver Verwendung in Vertriebsprojekten und technischen Untersuchungen handelt es sich im Bereich der Server um den wichtigsten Benchmark. © Fujitsu Technology Solutions 2012 Seite 13 (19) WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 SPECcpu2006 besteht aus zwei voneinander unabhängigen Suiten von Einzel-Benchmarks, die sich in der überwiegenden Verwendung von integer bzw. floating-point Operationen unterscheiden. Der integer Teil ist repräsentativ für kommerzielle Anwendungen und besteht aus 12 Einzel-Benchmarks. Der floating-point Teil ist repräsentativ für technisch-wissenschaftliche Anwendungen und enthält 17 Einzel-Benchmarks. Das Ergebnis eines Messlaufs ist jeweils das geometrische Mittel der Einzelergebnisse. Innerhalb der Suiten wird ferner unterschieden zwischen dem speed Lauf mit nur einem Prozess und dem rate Lauf mit einer konfigurierbaren Anzahl parallel arbeitender Prozesse. Offenbar ist die zweite Variante für Server mit ihrer Vielzahl an Prozessorkernen und Hardware-Threads interessanter. Schließlich wird hinsichtlich der zulässigen Compiler-Optimierung unterschieden: Beim peak Ergebnis dürfen die Einzel-Benchmarks unabhängig voneinander optimiert werden, beim konservativeren base Ergebnis müssen die Compiler-Flags bei allen Benchmarks gleich sein, und gewisse Optimierungen sind nicht erlaubt. Damit ist erklärt, worum es sich bei SPECint_rate_base2006 handelt. Die integer Suite wurde gewählt, weil kommerzielle Anwendungen beim Einsatz von PRIMERGY Servern überwiegen. Eine regelkonforme Messung erfordert drei Durchläufe, und pro Einzel-Benchmark wird das mittlere Ergebnis gewertet. Bei der hier beschriebenen technischen Untersuchung wurde hierauf verzichtet. Zur Vereinfachung gab es stets nur einen Durchlauf. Interleaving über die Speicherkanäle Interleaving über die Speicherkanäle meint den Aufbau des physikalischen Adressraums durch Alternierung zwischen den vier Kanälen eines Prozessors: die ersten 64 Bytes – dies ist die sogenannte Cache Line Size, die Einheit von Speicherzugriffen aus Sicht des Prozessors – liegen im ersten Kanal, die zweiten im zweiten, usw. Dadurch verteilt sich der nach dem Lokalitätsprinzip stets vorherrschende Zugriff auf aneinander angrenzende Speicherbereiche über alle Kanäle. Es entsteht ein Performance-Gewinn durch Parallelisierung. Die folgende Tabelle zeigt den Performance-Nachteil für den Fall, dass das ideale 4-way Interleaving, das mit Speicherbestückungen im Performance Mode erreicht wird, nicht gegeben ist. Die Tabelle zeigt deutlich die bereits hervorgehobene Tatsache, dass der Performance-Einfluss umso deutlicher ausfällt, je leistungsstärker der Prozessor ist. Für 2-way und 3-way Interleaving mit moderatem Performance-Verlust kann es gute Gründe geben: eine geringe benötigte Speicherkapazität oder eine Minimierung der DIMM Anzahl zur Energieeinsparung. Vom 1-way Interleaving, das eigentlich kein Interleaving ist und nur der Systematik halber so bezeichnet wird, ist dagegen abzuraten. Die Leistungspotenziale von Prozessoren und Speichersystem stehen in diesem Fall in keinem ausgewogenen Verhältnis. Für die kommerzielle Anwendungs-Performance sind die Aussagen zu SPECint_rate_base2006 repräsentativ. Die Verhältnisse bei der durch STREAM ausgedrückten Speicherbandbreite sind als Extremfälle zu verstehen, die in gewissen Anwendungsbereichen, insbesondere im HPC (High-performance Computing) Umfeld, nicht auszuschließen sind. Auch unter den 12 Einzel-Benchmarks von SPECint_rate_base2006 gibt es einen (libquantum), der sich annähernd wie STREAM verhält. Für die meisten kommerziellen Lasten ist ein solches Verhalten jedoch unwahrscheinlich. Diese Bewertung der Aussagekraft von STREAM und SPECint_rate_base2006 gilt nicht nur für den in diesem Abschnitt behandelten Performance-Aspekt, sondern auch für alle folgenden Abschnitte. Benchmark STREAM SPECint_rate_base2006 Prozessortyp 4-way 3-way 2-way 1-way Advanced 1.00 0.81 0.57 0.29 Standard 1.00 0.80 0.55 0.28 Basic 1.00 0.87 0.64 0.33 Advanced 1.00 0.97 0.91 0.74 Standard 1.00 0.98 0.93 0.79 Basic 1.00 0.99 0.98 0.89 Bei Speicherbestückungen im Independent Mode kann es vorkommen, dass sich die pro Speicherkanal vorhandenen Teilkapazitäten (GB pro Kanal) unterscheiden. Beispiele sind Bestückungen mit DIMMs unterschiedlicher Größe oder Bestückungen mit fünf und mehr DIMMs gleicher Größe. Ein einheitliches prozessorlokales Adressraumsegment lässt sich dann durch Alternieren über die Speicherkanäle nicht aufbauen. Das Alternieren muss immer „aufgehen“. Dieses Problem wird durch eine Zerlegung des Seite 14 (19) © Fujitsu Technology Solutions 2012 WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 physikalischen Adressraums in mehrere Segmente mit unterschiedlichem Interleaving gelöst. Durch Gruppierung der vorhandenen DIMMs wird angestrebt, Segmente mit möglichst hohem Interleaving zu erzeugen. Eine Bestückung pro Prozessor 2–1–1–1 mit zwei DIMMs am ersten Speicherkanal und je einem an den drei anderen wird beispielsweise zu 1–1–1–1 1 (Gruppe 1, 4-way Interleaving, 80% des Speichers, sehr gute Performance) (Gruppe 2, 1-way Interleaving, 20% des Speichers, schlechte Performance) aufgelöst. Die Speicher-Performance einer Anwendung kann dann schwanken, je nachdem, aus welchem Segment die Anwendung mit Speicher bedient wird. In sensiblen Anwendungsfällen kann dieses Phänomen ein Grund sein, unterschiedliche Teilkapazitäten pro Speicherkanal zu vermeiden. Speicherfrequenz Die Einflüsse auf die effektive Speicherfrequenz wurden oben ausführlich behandelt. Energieeinsparung (gesteuert über den BIOS Parameter DDR Performance) und große Speicherausbauten (3DPC Konfigurationen; Verwendung der auf 1333 MHz begrenzten LRDIMMs) können Gründe sein, dass die effektive Taktung geringer ist, als vom Prozessortyp maximal unterstützt. Die folgende Tabelle dürfte hilfreich sein, diese Einflüsse gegeneinander abzuwägen. Die quantitativen Aussagen sind hier bezogen auf die allen Messreihen gemeinsame unterste Speichertaktung 800 MHz. Das ist eine Ausnahme von der sonst beachteten Regel, die Aussagen auf den Idealfall zu beziehen. Die Taktung 800 MHz entsteht nur, wenn das BIOS auf die Einstellung DDR Performance = Energy optimized verändert wird. Das Potenzial für Energieeinsparungen, die über die Einstellung DDR Performance = Low-voltage optimized hinausgehen, ist jedoch sehr gering. Von der Speichertaktung 800 MHz ist deshalb eher abzuraten. Die Einstellung Low-voltage optimized führt zur Taktung mit 1333 oder 1066 MHz. Für den Fall, dass eine abgesenkte Speicherfrequenz in Zusammenhang mit der Speicherkapazität steht, sei ein Sachverhalt der Vollständigkeit halber noch erwähnt. Die Speicherkapazität kann einen impliziten Einfluss auf die Anwendungs-Performance haben, etwa in Form von I/O-Raten. Ein solcher Einfluss ist in der diesem Abschnitt zu Grunde liegenden Untersuchung selbstverständlich nicht berücksichtigt. In den Vergleichen der Tabelle ist die unterschiedliche Speichertaktung der einzige Performance-Einfluss. Benchmark Prozessortyp Advanced STREAM 1600 MHz 1333 MHz 1066 MHz 800 MHz 1.82 1.59 1.31 1.00 1.57 1.30 1.00 1.18 1.00 1.13 1.07 1.00 1.09 1.05 1.00 1.02 1.00 Standard Basic Advanced SPECint_rate_base2006 Standard Basic © Fujitsu Technology Solutions 2012 1.15 Seite 15 (19) WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 Interleaving über die Ranks Die Methode des Alternierens über Speicherressourcen beim Aufbau des physikalischen Adressraums lässt sich vom Interleaving über die Speicherkanäle auf ein Interleaving über die in einem Kanal befindlichen Ranks fortsetzen. Die Steuerung des Rank Interleaving erfolgt unmittelbar über Adressbits. Die beim Kanal Interleaving zur Herstellung des 3-way Falls ausgeführte Bitarithmetik wird nicht gemacht. Aus diesem Grund kommt nur ein Interleaving in Zweierpotenzen in Frage, d.h. es gibt nur ein 2-way, 4-way oder 8-way Rank Interleave. Eine ungerade Anzahl Ranks im Speicherkanal führt stets zum 1-way Interleave, das nur der Systematik halber als Interleave bezeichnet wird: bei 1-way wird ein Rank ausgeschöpft, bevor zum nächsten gewechselt wird. Die Granularität des Rank Interleaving ist größer als beim Interleaving über die Kanäle. Das letztere war an der 64 Bytes Cache Line Size ausgerichtet. Das Rank Interleaving orientiert sich an der 4 KB Seitengröße der Betriebssysteme und steht in Zusammenhang mit der Physik von DRAM Speicher. Speicherzellen sind in grober Beschreibung zweidimensional angeordnet. Es wird eine Zeile (engl. „Page“) eröffnet und anschließend eine Spaltenposition ausgelesen. Solange die Zeile offen ist, können weitere Spaltenwerte mit deutlich geringerer Latenz ausgelesen werden. Das gröbere Rank Interleaving ist auf diese Eigenschaft abgestimmt. Die Anzahl der Ranks pro Speicherkanal ergibt sich aus DIMM Typ und DPC Wert der Bestückung. Die Tabelle ist auf ein 4-way Interleaving bezogen. Dieser Fall ist in den meisten Standard-Benchmarks für PRIMERGY Server gegeben. 2DPC Konfigurationen mit größeren RDIMMs liefern in der Regel das beste Verhältnis zwischen Speicherkapazität und Performance. Das 8-way Interleave, das nur in 2DPC Konfigurationen mit LRDIMMs entstehen kann, ergibt gegenüber 4-way keine messbare Verbesserung und wurde weggelassen. 2-way und 4-way Rank Interleaving liefern sehr gute Speicher-Performance. Der winzige zusätzliche Vorteil von 4-way spielt nur dann eine Rolle, wenn es um das allerletzte Quäntchen Performance geht. Er ist in aller Regel vernachlässigbar. Bei 1DPC Bestückungen mit single-rank 2 GB UDIMMs oder 4 GB RDIMMs tritt jedoch der 1-way Fall ein. Hier sollte man sich über einen gewissen Performance-Nachteil im Klaren sein. In sensiblen Anwendungsfällen sollte dieser Fall vermieden werden. Die Speicher-Controller der Xeon E5-2600/4600 Prozessoren unterstützen maximal 8 Ranks pro Speicherkanal. Bei 3DPC Konfigurationen mit LRDIMMs reduziert die Rank Multiplication Funktion dieses DIMM Typs die 12 physikalischen Ranks auf 6 virtuelle. Es sind dann die virtuellen Ranks, die vom SpeicherController gesehen werden und dem Rank Interleaving unterliegen. Benchmark STREAM SPECint_rate_base2006 Seite 16 (19) Prozessortyp 4-way 2-way 1-way Advanced 1.00 0.98 0.89 Standard 1.00 0.99 0.91 Basic 1.00 0.99 0.92 Advanced 1.00 0.99 0.96 Standard 1.00 0.99 0.97 Basic 1.00 1.00 0.99 © Fujitsu Technology Solutions 2012 WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 Zugriff auf fernen Speicher Bei den bisher beschriebenen Untersuchungen mit den Benchmarks STREAM und SPECint_rate_base2006 wurde ausschließlich lokaler Speicher verwendet, d.h. der Prozessor greift auf DIMM Module seiner eigenen Speicherkanäle zu. Es kommt nicht oder kaum zum Zugriff auf Module des Nachbarprozessors über die QPI Links. Diese Situation ist insofern repräsentativ, als sie dank der NUMA Unterstützung in Betriebssystem und systemnaher Software auch für den überwiegenden Anteil an Speicherzugriffen realer Anwendungen gegeben ist. Die folgende Tabelle zeigt die Auswirkung der BIOS Einstellung NUMA = disabled im Fall einer ansonsten idealen Speicherkonfiguration, d.h. einer 4-way Rank-interleaved Performance Mode Konfiguration mit RDIMMs unter der pro Prozessortyp höchstmöglichen Speicherfrequenz. Die Performance-Verschlechterung tritt ein, weil statistisch jeder zweite Speicherzugriff auf einen fernen, d.h. dem Nachbarprozessor zugeordneten DIMM erfolgt, und die Daten den Umweg über die QPI Links nehmen müssen. Die Tabelle ist nur auf Dual Socket PRIMERGY Server anwendbar. Bei der PRIMERGY RX500 S7 ist das Abschalten der NUMA Unterstützung nicht möglich. Der Verlust durch fehlendes NUMA wäre höher als bei den Dual Socket Servern, weil der statistische Anteil an Zugriffen auf fernen Speicher 75% statt 50% beträgt, und weil der Fall eintreten kann, dass ein dritter Prozessor als Vermittler eines fernen Speicherzugriffs fungieren muss: in der PRIMERGY RX500 S7 ist jeder Prozessor nur mit zwei von drei Nachbarprozessoren direkt gekoppelt. Benchmark STREAM SPECint_rate_base2006 Prozessortyp NUMA = enabled NUMA = disabled Advanced 1.00 0.68 Standard 1.00 0.74 Basic 1.00 0.81 Advanced 1.00 0.91 Standard 1.00 0.93 Basic 1.00 0.95 Der physikalische Adressraum wird bei NUMA = disabled durch ein zusätzliches feinmaschiges Alternieren zwischen den Prozessoren aufgebaut. Dieses Alternieren setzt die gleiche Speicherkapazität an beiden Prozessoren voraus. Ist diese Randbedingung nicht gegeben, so erfolgt wiederum eine Zerlegung des Adressraums in einen Hauptteil, der das inter-socket Interleaving zulässt, und einen prozessorlokalen Rest. Das Experiment mit der Einstellung NUMA = disabled wurde weniger wegen der Ausnahmefälle unternommen, in denen diese Einstellung empfohlen wird, weil die NUMA Unterstützung in System- oder systemnaher Software fehlt oder unbefriedigend ist. Das Experiment ist vor allem hilfreich, die Auswirkung eines überwiegenden oder ausschließlichen Zugriffs auf fernen Speicher abzuschätzen. Dieser Fall kann eintreten, wenn ein Prozessor gar nicht mit Speicher bestückt wird, oder sich die pro Prozessor konfigurierten Speicherkapazitäten stark unterscheiden. Der Performance-Verlust gegenüber lokalem Zugriff kann dann bis zum Doppelten des in der Tabelle angegeben Verlusts betragen. © Fujitsu Technology Solutions 2012 Seite 17 (19) WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 Speicher-Performance unter Redundanz Für die Xeon E5-2600/4600 basierten PRIMERGY Server gibt es zwei Redundanzoptionen. Beim Mirroring sind alle vier Speicherkanäle eines Prozessors bestückt, aber zwei Kanäle spiegeln die anderen zwei. Dem Betriebssystem stehen 50% des tatsächlich konfigurierten Speichers zur Verfügung. Beim Sparing oder genauer Rank Sparing ist ein Rank pro Speicherkanal unbenutzter Ersatz für den Fall, dass ein aktiver Rank wegen eines defekten DRAM Chips ausfällt. Die für das Betriebssystem verfügbare Nettospeicherkapazität hängt in diesem Fall von DIMM Typ und DPC Wert ab. Die Tabelle zeigt die Auswirkung, wenn die Redundanzoptionen im Fall einer ansonsten idealen Speicherkonfiguration aktiviert werden, d.h. einer 4-way Rank-interleaved Performance Mode Konfiguration mit RDIMMs unter jeweils höchstmöglicher Speicherfrequenz. Benchmark STREAM SPECint_rate_base2006 Prozessortyp Keine Redundanz Rank Sparing Mirroring Advanced 1.00 0.89 0.77 Standard 1.00 0.91 0.77 Basic 1.00 0.92 0.84 Advanced 1.00 0.96 0.96 Standard 1.00 0.97 0.97 Basic 1.00 0.99 0.99 Die Spalte Sparing ist identisch mit dem oben im Abschnitt Interleaving über die Ranks gezeigten 1-way Rank Interleaving, weil ein Reserve-Rank stets zu einer ungeraden Anzahl aktiver Ranks führt. Die Spalte Mirroring ist mit dem oben im Abschnitt Interleaving über die Speicherkanäle gezeigten 2-way Interleaving hingegen nicht identisch, weil beide Hälften des Spiegels für den lesenden Zugriff genutzt werden können. Ein Vergleich mit dem entsprechenden Untersuchungsergebnis für die Xeon 5600 basierte Vorgängergeneration [L5] zeigt, dass sich die Effizienz der Redundanzfunktionen spürbar verbessert hat. Seite 18 (19) © Fujitsu Technology Solutions 2012 WHITE PAPER SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME VERSION: 1.2 2012-12-07 Literatur [L1] PRIMERGY Systeme http://primergy.de/ [L2] PRIMERGY Performance http://www.fujitsu.com/de/products/computing/servers/primergy/benchmarks/ [L3] STREAM Benchmark http://www.cs.virginia.edu/stream/ [L4] SPECcpu2006 Benchmark http://docs.ts.fujitsu.com/dl.aspx?id=04351fd2-8a69-42a3-ba1c-4342dcc89b89 [L5] Speicher-Performance Xeon 5600 (Westmere-EP) basierter Systeme http://docs.ts.fujitsu.com/dl.aspx?id=085ccf08-2dab-4c04-91af-61ab7be4edc2 [L6] Speicher-Performance Xeon E7-8800/4800/2800 (Westmere-EX) basierter Systeme http://docs.ts.fujitsu.com/dl.aspx?id=c2599c0b-e67a-4093-a99a-d56e825f5832 Kontakt FUJITSU Website: http://www.fujitsu.com/de/ PRIMERGY Product Marketing mailto:[email protected] PRIMERGY Performance und Benchmarks mailto:[email protected] Alle Rechte vorbehalten, insbesondere gewerbliche Schutzrechte. Änderung von technischen Daten sowie Lieferbarkeit vorbehalten. Haftung oder Garantie für Vollständigkeit, Aktualität und Richtigkeit der angegebenen Daten und Abbildungen ausgeschlossen. Wiedergegebene Bezeichnungen können Marken und/oder Urheberrechte sein, deren Benutzung durch Dritte für eigene Zwecke die Rechte der Inhaber verletzen kann. Weitere Einzelheiten unter http://www.fujitsu.com/de/resources/navigation/terms-of-use.html 2012-12-07 WW DE © Fujitsu Technology Solutions 2012 Copyright © Fujitsu Technology Solutions 2012 Seite 19 (19)