Speicher-Performance Xeon E5-2600/4600 basierter Systeme

Transcription

Speicher-Performance Xeon E5-2600/4600 basierter Systeme
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
WHITE PAPER
FUJITSU PRIMERGY SERVER
SPEICHER-PERFORMANCE XEON E5-2600/4600
(SANDY BRIDGE-EP) BASIERTER SYSTEME
Die Xeon E5-2600/4600 (Sandy Bridge-EP) basierten PRIMERGY Modelle beziehen ihre
eindrucksvolle Leistungssteigerung auch aus einer Stärkung der seit zwei Systemgenerationen bewährten QuickPath Interconnect (QPI) Speicherarchitektur. Dieses White
Paper erläutert die geänderten Architekturparameter und quantifiziert deren Auswirkung
auf die Performance kommerzieller Anwendungen.
Version
1.2
2012-12-07
© Fujitsu Technology Solutions 2012
Seite 1 (19)
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
Inhalt
Dokumenthistorie ................................................................................................................................................ 2
Einleitung ............................................................................................................................................................ 3
Speicherarchitektur ............................................................................................................................................. 4
DIMM Steckplätze ........................................................................................................................................... 4
DIMM Typen .................................................................................................................................................... 5
Festlegung der Speicherfrequenz ................................................................................................................... 7
BIOS Parameter .............................................................................................................................................. 8
Performante Speicherbestückungen .................................................................................................................. 9
Performance Mode Konfigurationen ............................................................................................................... 9
Independent Mode Konfigurationen .............................................................................................................. 12
Symmetrische Speicherbestückungen .......................................................................................................... 12
Quantitative Auswirkungen auf die Speicher-Performance .............................................................................. 13
Die Messtools ................................................................................................................................................ 13
Interleaving über die Speicherkanäle ............................................................................................................ 14
Speicherfrequenz .......................................................................................................................................... 15
Interleaving über die Ranks .......................................................................................................................... 16
Zugriff auf fernen Speicher ........................................................................................................................... 17
Speicher-Performance unter Redundanz ..................................................................................................... 18
Literatur ............................................................................................................................................................. 19
Kontakt .............................................................................................................................................................. 19
Dokumenthistorie
Version 1.0 (2012-03-23)
Urfassung
Version 1.1 (2012-09-07)
Berücksichtigung der Xeon E5-4600 basierten PRIMERGY RX500 S7
Version 1.2 (2012-12-07)
Präzisierung im Abschnitt über die Festlegung der Speicherfrequenz
Seite 2 (19)
© Fujitsu Technology Solutions 2012
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
Einleitung
Die aktuelle Generation der Dual Socket PRIMERGY Server, die mit Intel Xeon E5-2600 (Sandy Bridge-EP)
Prozessoren ausgestattet ist, bringt eine Leistungssteigerung von bis zu 70%, in technischwissenschaftlichen Anwendungen bis 120%. Die Steigerung ergibt sich aus einer neuen Mikroarchitektur mit
bis zu acht Kernen pro Prozessor, einer Stärkung des Speichersystems und einer neuen I/O-Anbindung über
on-chip PCIe. Die 32-nm-Fertigungstechnologie wird von der Xeon 5600 (Westmere-EP) basierten
Vorgängergeneration übernommen.
Die nahe verwandte Intel Xeon E5-4600 (ebenfalls Sandy Bridge-EP) Prozessorserie ermöglicht darüber
hinaus die Skalierung auf vier Prozessoren derselben Prozessorgeneration. Die hierauf basierende neue
PRIMERGY RX500 S7 ergänzt den Xeon E7-4800 (Westmere-EX) basierten 4-Socket Server PRIMERGY
RX600 S6 [L6].
Die bewährten Grundzüge der Speicherarchitektur der Vorgängergenerationen Nehalem-EP und WestmereEP sind beibehalten. Die Prozessoren haben on-chip Speicher-Controller, d.h. jeder Prozessor steuert eine
Gruppe ihm zugeordneter Speichermodule. Dieser lokale Speicherzugriff ist sehr performant. Gleichzeitig ist
der Prozessor in der Lage, über unidirektionale, serielle QPI (QuickPath Interconnect) Links benachbarten
Prozessoren Speicherinhalte zur Verfügung zu stellen und solche selbst anzufordern. Der ferne Zugriff ist
etwas weniger performant. Diese Architektur mit ihrer Unterscheidung zwischen lokalem und fernem
Speicherzugriff ist vom Typ NUMA (Non-Uniform Memory Access).
Die Parameter der Speicherarchitektur wurden angepasst, um der gestiegenen Rechenleistung der
Prozessoren Rechnung zu tragen. Es gibt vier statt bisher drei Speicherkanäle pro Prozessor. Die maximale
Speicherfrequenz wird von 1333 auf 1600 MHz erhöht. Bei den Dual Socket PRIMERGY Modellen werden
die Prozessoren mit zwei statt einem QPI Link-Paar verbunden. Die maximale QPI Taktung beträgt 8.0 statt
6.4 GT/s (Gigatransfers per second). Seit der Einführung der QPI Architektur mit den Xeon 5500 (NehalemEP) basierten Systemen im März 2009 handelt es sich um die erste Anpassung dieser Parameter. Die
elementarste Kennzahl der Speicher-Performance, die Speicherbandbreite, verdoppelt sich hierdurch für
den Dual Socket Server von etwa 40 auf 80 GB/s.
Für die Konfiguration möglichst leistungsfähiger Systeme ist eine Grundkenntnis der Speicherarchitektur
erforderlich, die in diesem White Paper vermittelt werden soll. Es geht um folgende Punkte:

Wegen der NUMA Architektur sollten alle Prozessoren so weit wie möglich gleich mit Speicher
bestückt werden. Diese Maßnahme zielt darauf ab, dass jeder Prozessor in der Regel auf seinem
lokalen Speicher arbeitet.

Zur Parallelisierung und damit Beschleunigung des Speicherzugriffs wird angestrebt, auch eng
benachbarte Bereiche des physikalischen Adressraums über mehrere Komponenten des
Speichersystems zu verteilen. Der zugehörige Fachbegriff ist Interleaving. Das Interleaving gibt es in
zwei Dimensionen. Zunächst in die Breite über die vier Speicherkanäle pro Prozessor. Die
„Performance Mode“ Bestückung des PRIMERGY-Konfigurators in Vierergruppen von DIMMs (Dual
Inline Memory Module) desselben Typs an jedem Prozessor sorgt für das optimale Interleaving in
dieser Richtung. Darüber hinaus gibt es ein Interleaving in der Tiefe des einzelnen Speicherkanals.
Die entscheidenden Speicherressourcen hierfür sind die sogenannten Ranks. Dies sind
Unterstrukturen der DIMMs, in denen Gruppen von DRAM (Dynamic Random Access Memory)
Chips zusammengefasst sind. Der einzelne Speicherzugriff bezieht sich stets auf eine solche
Gruppe.

Die Speichertaktung beeinflusst die Performance. Sie beträgt 1600, 1333, oder 1066 MHz in
Abhängigkeit von Prozessortyp, DIMM Typ und Anzahl. Darüber hinaus lässt sich die Taktung
zugunsten des Energieverbrauchs per BIOS Einstellung auf 800 MHz absenken. Sehr große
Speicherkapazitäten und der low-voltage Energiesparmodus der Speichermodule begrenzen die
Speichertaktung. Aus diesem Grund sind die drei Aspekte Performance, Kapazität und
Energieverbrauch gegeneinander abzuwägen.
Einflussfaktoren werden benannt und quantifiziert. Die Quantifizierung erfolgt mit Hilfe der Benchmarks
STREAM und SPECint_rate_base2006. STREAM misst die Speicherbandbreite. SPECint_rate_base2006
dient als Modell für die Performance kommerzieller Anwendungen.
Es zeigt sich, dass die prozentualen Einflüsse abhängig von der Leistungsstärke der Prozessoren sind. Die
in diesem Dokument behandelten Fragen der Speicherkonfiguration sollten umso sorgfältiger bedacht
werden, ja stärker das konfigurierte Prozessormodell ist.
Den Abschluss des Dokuments machen Aussagen zur Speicher-Performance unter Redundanz, d.h. bei
aktiviertem Mirroring oder Rank Sparing.
© Fujitsu Technology Solutions 2012
Seite 3 (19)
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
Speicherarchitektur
Dieses Kapitel gibt in vier Abschnitten einen Überblick über das Speichersystem. Anhand von
Blockdiagrammen wird die Anordnung der verfügbaren DIMM Steckplätze erläutert. Im zweiten Abschnitt
werden die verfügbaren DIMM Typen aufgelistet. Es folgt ein Abschnitt über die Einflüsse auf die effektive
Speicherfrequenz. Der vierte Abschnitt behandelt die das Speichersystem betreffenden BIOS Parameter.
DIMM Steckplätze
Die folgenden Grafiken zeigen den Aufbau des Speichersystems. Die erste Grafik betrifft die Dual Socket
PRIMERGY Modelle und enthält Erläuterungen und Bandbreitenangaben zu den einzelnen
Speicherressourcen. Die zweite Grafik betrifft die PRIMERGY RX500 S7. Die Detailangaben sind der
Übersichtlichkeit halber weggelassen, gelten aber wie bei den Dual Socket Modellen.
Alle Xeon E5-2600/4600 basierten PRIMERGY Server haben 12 DIMM Steckplätze pro Prozessor.
Es gibt stets vier Speicherkanäle pro Prozessor. Die Anzahl der pro Kanal bestückten DIMM Streifen
beeinflusst die Speichertaktung und damit die Speicher-Performance. Diese Größe, auf die im Folgenden
häufig Bezug genommen wird, wird mit DPC (DIMMs per channel) bezeichnet. Sind die Kanäle verschieden
bestückt, so ist der größte vorkommende DPC Wert für die Auswirkung der Speicherbestückung auf die
Taktung ausschlaggebend.
Ein weiterer im Folgenden verwendeter Begriff ist die Speicherbank. Wie in der Grafik zu sehen ist, bildet
eine Gruppe von vier über die Kanäle verteilten DIMM Streifen eine Bank. Die Farbgebung der Grafik
(schwarz, blau, grün) entspricht der farblichen Markierung der Bänke auf den Motherboards der Server, die
Fehler bei der Bestückung verhindern soll. Bei der Verteilung der DIMM Streifen über die pro Prozessor
verfügbaren Steckplätze ist es wünschenswert, mit Bank 1 zu beginnen und bankweise vorzugehen, um ein
möglichst gutes Interleaving über die Kanäle zu erreichen. Das Interleaving ist ein Haupteinfluss auf die
Speicher-Performance.
DIMM slot designation of Xeon E5-2600 based 2-way PRIMERGY models
DMI2 connectivity to
Intel C600 series chipset
GT/s = Gigatransfers per second
GB/s = Gigabytes per second
PCIe GEN3 connectivity
up to 40 lanes per CPU
allocation depending on server model
CPU 1
DDR3 memory channel with up to 3DPC
1600 or 1333 or 1066 or 800 MHz
12.8 or 10.6 or 8.5 or 6.4 GB/s (half duplex)
depending on CPU and DIMM type,
DPC value and BIOS setting
PCIe GEN3 connectivity
up to 40 lanes per CPU
allocation depending on
server model
Two bidirectional QPI links, each:
8.0 or 7.2 or 6.4 GT/s
16.0 or 14.4 or 12.8 GB/s (full duplex)
depending on CPU model
Memory Controller
CPU 2
Memory Controller
Bank 3
if used, max frequency
is 1066 MHz
Bank 2
max frequency 1600 MHz
DIMM 3A
DIMM 3B
DIMM 3C
DIMM 3D
DIMM 3E
DIMM 3F
DIMM 3G
DIMM 3H
DIMM 2A
DIMM 2B
DIMM 2C
DIMM 2D
DIMM 2E
DIMM 2F
DIMM 2G
DIMM 2H
DIMM 1A
DIMM 1B
DIMM 1C
DIMM 1D
DIMM 1E
DIMM 1F
DIMM 1G
DIMM 1H
Bank 1
max frequency 1600 MHz
Channel A Channel B Channel C Channel D
Seite 4 (19)
Channel E
Channel F Channel G Channel H
© Fujitsu Technology Solutions 2012
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
DIMM slot designation of Xeon E5-4600 based PRIMERGY RX500 S7
optional
CPU 4
CPU 3
Memory Controller
Memory Controller
DIMM 3N
DIMM 3P
DIMM 3Q
DIMM 3R
DIMM 3J
DIMM 3K
DIMM 3L
DIMM 3M
DIMM 2N
DIMM 2P
DIMM 2Q
DIMM 2R
DIMM 2J
DIMM 2K
DIMM 2L
DIMM 2M
DIMM 1N
DIMM 1P
DIMM 1Q
DIMM 1R
DIMM 1J
DIMM 1K
DIMM 1L
DIMM 1M
CPU 1
CPU 2
Memory Controller
Memory Controller
DIMM 3A
DIMM 3B
DIMM 3C
DIMM 3D
DIMM 3E
DIMM 3F
DIMM 3G
DIMM 3H
DIMM 2A
DIMM 2B
DIMM 2C
DIMM 2D
DIMM 2E
DIMM 2F
DIMM 2G
DIMM 2H
DIMM 1A
DIMM 1B
DIMM 1C
DIMM 1D
DIMM 1E
DIMM 1F
DIMM 1G
DIMM 1H
Der zugehörige Prozessor muss vorhanden sein, um DIMM Steckplätze verwenden zu können. Ist keine
Maximalkonfiguration gegeben, können die den leeren CPU Sockets zugeordneten Steckplätze nicht benutzt
werden.
DIMM Typen
Für die Speicherbestückung kommen DIMM Streifen gemäß der folgenden Tabelle in Betracht. Es gibt
unbuffered (UDIMM), registered (RDIMM) und load-reduced (LRDIMM) DIMMs. Mischkonfigurationen aus
diesen drei DIMM Arten sind nicht möglich. Die Tabelle vermerkt in der letzten Spalte, welche DIMMs auch
in der PRIMERGY RX500 S7 verfügbar sind.
UDIMMs haben auf Grund einfacherer Bauweise eine geringere maximale Kapazität. Die einfachere
Bauweise bringt Vorteile bei Zugriffslatenz und Energieverbrauch, jedoch auch die Einschränkung, dass
3DPC Konfigurationen nicht möglich sind.
Bei RDIMMs werden die Steuerbefehle des Speicher-Controllers in dem namengebenden Register, das sich
in einem eigenen Baustein auf dem DIMM befindet, zwischengepuffert. Dies bewirkt eine Entlastung des
Speicherkanals und ermöglicht 3DPC Konfigurationen, die mit UDIMMs nicht möglich sind.
Bei allen DIMM Typen werden Daten in Einheiten von 64 Bit übertragen. Dies ist eine Eigenschaft der
DDR3-SDRAM Speichertechnologie. Ein Speicherbereich dieser Breite wird auf dem DIMM aus einer
Gruppe von DRAM Chips aufgebaut, wobei der einzelne Chip für 4 oder 8 Bit zuständig ist (siehe die Kürzel
x4 bzw. x8 in der Typenbezeichnung). Eine solche Chip-Gruppe wird als Rank bezeichnet. Es gibt DIMM
Typen mit 1, 2 oder 4 Ranks entsprechend der Tabelle. Die Anzahl der pro Speicherkanal vorhandenen
Ranks hat einen gewissen Performance-Einfluss, der unten erläutert wird.
Der x4 oder x8 Aufbau der DIMMs beeinflusst die ECC-Erkennbarkeit von Speicherfehlern, die korrigierbar
oder nicht korrigierbar sein können. Aus diesem Grund kann der 4GB 2Rx8 PC3L-12800R RDIMM der
Tabelle mit den anderen verfügbaren RDIMMs, die alle x4 sind, nicht gemischt werden.
© Fujitsu Technology Solutions 2012
Seite 5 (19)
VERSION: 1.2  2012-12-07
RX500 S7
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
Ranks
Kapazität
rel.
Preis
pro
GB
1.5 / 1.35
1
2 GB
1.5
1600
1.5 / 1.35
2
4 GB
1.1
registered
1333
1.5 / 1.35
1
4 GB
1.3
4GB 1Rx4 PC3L-12800R
4GB (1x4GB) 1Rx4 L DDR3-1600 R ECC
registered
1600
1.5 / 1.35
1
4 GB
1.4
x
4GB 2Rx8 PC3L-12800R
4GB (1x4GB) 2Rx8 L DDR3-1600 R ECC
registered
1600
1.5 / 1.35
2
4 GB
1.4
x
8GB 2Rx4 PC3L-10600R
8GB (1x8GB) 2Rx4 L DDR3-1333 R ECC
registered
1333
1.5 / 1.35
2
8 GB
1.0
8GB 2Rx4 PC3L-12800R
8GB (1x8GB) 2Rx4 L DDR3-1600 R ECC
registered
1600
1.5 / 1.35
2
8 GB
1.2
x
16GB 2Rx4 PC3L-12800R
16GB (1x16GB) 2Rx4 L DDR3-1600 R ECC
registered
1600
1.5 / 1.35
2
16 GB
1.3
x
16GB 4Rx4 PC3L-10600L
16GB (1x16GB) 4Rx4 L DDR3-1333 LR ECC
load
reduced
1333
1.5 / 1.35
4
16 GB
1.5
x
32GB 4Rx4 PC3L-10600L
32GB (1x32GB) 4Rx4 L DDR3-1333 LR ECC
load
reduced
1333
1.5 / 1.35
4
32 GB
3.5
x
Ansteuerung
max Frequenz
(MHz)
Volt
2GB 1Rx8 PC3L-12800E
2GB (1x2GB) 1Rx8 L DDR3-1600 U ECC
unbuffered
1600
4GB 2Rx8 PC3L-12800E
4GB (1x4GB) 2Rx8 L DDR3-1600 U ECC
unbuffered
4GB 1Rx4 PC3L-10600R
4GB (1x4GB) 1Rx4 L DDR3-1333 R ECC
DIMM-Typ
(JEDEC / SystemArchitect)
Die Motivation für quad-rank DIMMs sind große Speicherkapazitäten. Die erstmals eingeführten LRDIMMs
ersetzen die hierfür bisher üblichen quad-rank RDIMMs, die auf 2DPC Konfigurationen begrenzt waren, weil
pro Speicherkanal maximal 8 Ranks unterstützt werden. In LRDIMMs werden außer den Steuerbefehlen
auch die Daten selbst in einem auf dem DIMM befindlichen Baustein zwischengepuffert. Darüber hinaus
kann die Rank Multiplication Funktion dieses DIMM Typs mehrere physikalische Ranks auf einen virtuellen
abbilden. Der Speicher-Controller sieht dann nur virtuelle Ranks. Diese Funktion wird im Fall von 3DPC
Konfigurationen mit LRDIMMs angewendet. 3DPC Konfigurationen mit quad-rank Modulen, die die maximale
Speicherkapazität erheblich erweitern, sind eine Neuerung der Xeon E5-2600/4600 basierten
Servergeneration.
Die Entscheidung für eine der Typengruppen UDIMM, RDIMM oder LRDIMM wird in der Regel auf Basis der
benötigten Speicherkapazität fallen. Die Performance-Einflüsse Taktung und Anzahl der Ranks gibt es bei
allen drei Typen in gleicher Weise; diese Einflüsse sind typenunabhängig. Typenspezifische PerformanceEinflüsse gibt es; sie sind aber so gering, dass sie in den meisten Fällen außer Acht bleiben können. Drei
Beispiele für typenspezifische Einflüsse seien an dieser Stelle genannt. Eine systematische quantitative
Untersuchung folgt unten wegen Geringfügigkeit jedoch nicht:

Die zunehmende Komplexität der DIMM Arten UDIMM, RDIMM und LRDIMM durch zusätzliche auf
dem DIMM befindliche Bauteile ist mit einem leichten Anstieg der Zugriffslatenz in der
Größenordnung einiger weniger Nanosekunden verbunden.

Die höhere Belastung der Speicherkanäle durch UDIMMs führt in 2DPC Konfigurationen zum
sogenannten 2N Timing: Adressbefehle an den DIMM sind nur noch bei jedem zweiten Takt des
Speicherkanals möglich. Dies reduziert die maximale Speicherbandbreite um einige wenige Prozent.
Eine Auswirkung auf die Anwendungs-Performance ist jedoch unwahrscheinlich.

Die Rank Multiplication bei 3DPC Bestückungen mit LRDIMMs führt ebenfalls zu einem Abschlag
auf die maximale Speicherbandbreite und zu einer Reduktion der Anwendungs-Performance – im
Vergleich zu 3DPC Bestückungen mit RDIMMs – von unter 5%.
Alle angebotenen DIMM Typen lassen sich mit 1.5 V oder energiesparenden 1.35 V betreiben. Der 1.35 V
Betrieb ist jedoch bei 3DPC Konfigurationen nicht möglich und kann eine Reduzierung der Speicherfrequenz
Seite 6 (19)
© Fujitsu Technology Solutions 2012
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
und damit der Speicher-Performance bedeuten. Der folgende Abschnitt über die Speicherfrequenz
beleuchtet diesen Zusammenhang.
Die effektive Frequenz einer gegebenen Konfiguration ist von einer Reihe von Einflüssen abhängig. Die in
der DIMM Typentabelle angegebene maximale Frequenz ist lediglich als obere Grenze für diese effektive
Frequenz zu verstehen.
Die Tabelle gibt in der vorletzten Spalte eine Orientierung zu den relativen Preisunterschieden. Zugrunde
gelegt sind die Listenpreise der PRIMERGY RX300 S7 im September 2012. Die Spalte zeigt den relativen
Preis pro GB, normiert auf den registered PC3L-10600R DIMM der Größe 8 GB (hervorgehoben als
Maßstab 1). Das Bild der relativen Preise unterliegt seit der Einführung des DDR3-SDRAM Speichers einem
steten Wandel. Etwas geringer sind derzeit die Kosten für 1333 MHz RDIMMs, höherpreisig sind die neuen
LRDIMMs.
Hinsichtlich der Verfügbarkeit einzelner DIMM Typen kann es je nach PRIMERGY Modell Einschränkungen
geben. Ausschlaggebend ist stets der aktuelle Konfigurator. Außerdem sind Einschränkungen der
Verfügbarkeit je nach Vertriebsregion möglich.
Festlegung der Speicherfrequenz
Für die Taktung des Speichers gibt es die vier möglichen Werte 1600, 1333, 1066 oder 800 MHz. Die
Taktung wird vom BIOS beim Einschalten des Systems festgelegt und gilt pro System, nicht pro Prozessor.
Für die Festlegung ist zunächst das konfigurierte Prozessormodell von Bedeutung. Die Xeon E5-2600/4600
Modelle fallen in drei Klassen mit jeweils einer Obergrenze für die Speicherfrequenz entsprechend der
folgenden Tabelle:
CPU Typ
maximale
Speicherfrequenz
(MHz)
QPI
(GT/s)
Xeon E5-2600 Modelle
Advanced
1600
8.0
E5-2690, E5-2680, E5-2670, E5-2665,
E5-2660, E5-2650, E5-2650L, E5-2667,
E5-2643, E5-2637
E5-4650, E5-4640, E5-4650L
Standard
1333
7.2
E5-2640, E5-2630, E5-2620, E5-2630L
E5-4620, E5-4610, E5-4617
Basic
1066
6.4
E5-2609, E5-2603
E5-4607, E5-4603
Xeon E5-4600 Modelle
Außerdem begrenzen DIMM Typ und DPC Wert der Speicherkonfiguration die Taktung. Prozessortyp, DIMM
Typ und DPC Wert sind harte Einflüsse auf die Speichertaktung, die sich per BIOS nicht übersteuern lassen.
Der BIOS-Parameter „DDR Performance“ erlaubt jedoch die Abwägung zwischen Performance und
Energieverbrauch. Erfolgt die Abwägung zugunsten von Performance, so ergibt sich die effektive
Speicherfrequenz entsprechend folgender Tabelle. Hierbei sind die Spalten für UDIMMs und 1333 MHz
RDIMMs für die PRIMERGY RX500 S7 nicht relevant.
DDR Performance = Performance optimized (Default)
graue Schattierung: 1.5V – keine Schattierung: 1.35V
UDIMM 1600 MHz
CPU Typ
RDIMM 1600 MHz
RDIMM 1333 MHz
LRDIMM 1333 MHz
2DPC
3DPC
1DPC
2DPC
3DPC
1DPC
2DPC
3DPC
1DPC
2DPC
3DPC
Advanced
1333
1
1333
n/a
1600
1600
1066
1333
1333
1066
1333
1333
1066
Standard
1333
1333
n/a
1333
1333
1066
1333
1333
1066
1333
1333
1066
Basic
1066
1066
n/a
1066
1066
1066
1066
1066
1066
1066
1066
1066
1
1DPC
1600 MHz auf Sonderfreigabe
Die folgende Tabelle gilt, wenn energiesparendem 1.35 V low-voltage Betrieb der Vorrang gegeben wird. Es
sei jedoch daran erinnert, dass 1.35 V Betrieb tatsächlich nur in 1DPC und 2DPC Konfigurationen eintritt.
© Fujitsu Technology Solutions 2012
Seite 7 (19)
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
DDR Performance = Low-voltage optimized
graue Schattierung: 1.5V – keine Schattierung: 1.35V
UDIMM 1600 MHz
RDIMM 1600 MHz
RDIMM 1333 MHz
LRDIMM 1333 MHz
CPU Typ
1DPC
2DPC
3DPC
1DPC
2DPC
3DPC
1DPC
2DPC
3DPC
1DPC
2DPC
3DPC
Advanced
1066
1
1066
n/a
1333
1333
1066
1333
1333
1066
1066
1066
1066
Standard
1066
1066
n/a
1333
1333
1066
1333
1333
1066
1066
1066
1066
Basic
1066
1066
n/a
1066
1066
1066
1066
1066
1066
1066
1066
1066
1
1333 MHz auf Sonderfreigabe
Die geringste Speicher-Performance ergibt sich bei der dritten Belegung:
DDR Performance = Energy optimized
graue Schattierung: 1.5V – keine Schattierung: 1.35V
UDIMM 1600 MHz
RDIMM 1600 MHz
RDIMM 1333 MHz
LRDIMM 1333 MHz
CPU type
1DPC
2DPC
3DPC
1DPC
2DPC
3DPC
1DPC
2DPC
3DPC
1DPC
2DPC
3DPC
Advanced
800
800
n/a
800
800
800
800
800
800
800
800
800
Standard
800
800
n/a
800
800
800
800
800
800
800
800
800
Basic
800
800
n/a
800
800
800
800
800
800
800
800
800
Soweit die Beschreibung der mit der Speicherfrequenz zusammenhängenden Funktionalität. Quantitative
Aussagen, was unterschiedliche Frequenzen für die kommerzielle Anwendungs-Performance bedeuten,
folgen unten. Ein Vorgriff auf die Ergebnisse lautet wie folgt. Die Einstellung Low-voltage optimized dürfte in
vielen produktiven Anwendungsfällen am effizientesten sein, weil die mit Performance optimized erreichbare
Performance-Steigerung geringfügig (1-2%) und nur bei sorgfältiger Messung nachweisbar ist. Für
Energieeinsparung ist hauptsächlich der low-voltage Betrieb ausschlaggebend, weniger die Absenkung der
Speicherfrequenz. Aus diesem Grund ist die Einstellung Energy optimized weniger interessant: während
eine Reduzierung der Speicher-Performance sicher ist, bleibt eine über den 1.35 V Betrieb hinausgehende
weitere Energieeinsparung eher ungewiss.
BIOS Parameter
Unter Advanced / Memory findet sich im BIOS ein die Speicherkonfiguration betreffendes Untermenü mit
folgenden vier Parametern:

Memory Mode: Independent / Mirroring / Sparing

NUMA: enabled / disabled

DDR Performance: Low-voltage optimized / Energy optimized / Performance optimized
 Patrol Scrub: enabled / disabled
Der vierte Parameter ist Bestandteil der RAS (Reliability, Availability and Serviceability) Funktionalität und
dient der laufenden Bereinigung von korrigierbaren Speicherfehlern. Der Default ist enabled.
Der dritte Parameter DDR Performance wurde im letzten Abschnitt bereits ausführlich behandelt.
Der NUMA-Parameter legt fest, ob der physikalische Adressraum aus Segmenten lokalen Speichers
aufgebaut und das Betriebssystem über dessen Struktur informiert wird. Die Default-Einstellung ist enabled
und sollte ohne triftigen Grund nicht verändert werden. Bei der PRIMERGY RX500 S7 sind die Nachteile der
Deaktivierung von NUMA noch gravierender als bei den Dual Socket Servern, weshalb der Parameter bei
diesem System fehlt.
Der erste Parameter betrifft die Redundanzfunktionen. Werden diese Funktionen bei der Konfiguration in
SystemArchitect angefordert, so erfolgt eine entsprechende werksseitige Voreinstellung. Ansonsten steht
der Parameter auf independent (keine Redundanz). Quantitative Aussagen zur Auswirkung dieser
Funktionen auf die Systemleistung folgen unten. Performance unter Redundanz sowie die Auswirkung von
Redundanz auf die maximal mögliche Nettospeicherkapazität haben sich gegenüber den Xeon 5600
basierten Vorgängersystemen deutlich verbessert.
Seite 8 (19)
© Fujitsu Technology Solutions 2012
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
Performante Speicherbestückungen
Die folgenden Aussagen zu Speicherbestückungen orientieren sich an der Terminologie des PRIMERGY
Konfigurators. Der erste Abschnitt gilt Bestückungen, die die Topologie des Speichersystems ideal
ausnutzen und die beste Speicher-Performance liefern. Der Konfigurator bezeichnet sie als Performance
Mode Konfigurationen.
Performance Mode Konfigurationen
In diesem Mode wird bankweise in Gruppen von vier DIMMs gleichen Typs bestückt. Damit wird eine
Gleichbehandlung aller vier Speicherkanäle eines Prozessors erreicht. Der Speicherzugriff verteilt sich
gleichmäßig über diese Ressourcen des Speichersystems. Technisch gesprochen entsteht das optimale
4-way Interleaving über die Speicherkanäle.
Unter der zusätzlichen Annahme, dass alle Prozessoren gleich bestückt sind, gibt es im Performance Mode
der 2-way PRIMERGY Server 16 verschiedene Speicherkapazitäten; bei der PRIMERGY RX500 S7 sind es
14. Der Unterschied ist dadurch bedingt, dass die PRIMERGY RX500 S7 keine UDIMMs, und damit keinen
DIMM Typ der Größe 2 GB, unterstützt. Bei den 2-way Servern decken die Kapazitäten einen Bereich
zwischen 16 und 768 GB ab, bei der PRIMERGY RX500 S7 zwischen 64 und 1536 GB. Die oberen Grenzen
der Bereiche sind zugleich die jeweiligen Maximalkonfigurationen.
Die beiden folgenden Tabellen listen diese Speicherkonfigurationen auf. Sie sind vollständig hinsichtlich der
Kapazitäten, jedoch nicht notwendigerweise hinsichtlich der in Frage kommenden DIMM Typen.
Beispielsweise wurden Optionen mit Kostennachteilen weggelassen.
Performance Mode Konfigurationen Xeon E5-2600 basierte Server
1 CPU
System
2 CPU
System
8 GB
16 GB
16 GB
32 GB
24 GB
48 GB
32 GB
64 GB
48 GB
96 GB
64 GB
128 GB
80 GB
160 GB
96 GB
192 GB
112 GB
224 GB
128 GB
256 GB
144 GB
288 GB
160 GB
320 GB
192 GB
384 GB
256 GB
DIMM Typ
DIMM
Kap. GB
Bank 1
DIMM
Kap. GB
Bank 2
DIMM
Kap. GB
Bank 3
DPC
Wert
Max MHz
Performance
optimized
Max Mhz
Low-voltage
optimized
UDIMM
2
1
1600
1333
UDIMM
4
1
1600
1333
RDIMM
4
1
1600
1333
UDIMM
4
2
2
1333
1066
UDIMM
4
4
2
1333
1066
RDIMM
8
1
1600
1333
RDIMM
8
4
2
1600
1333
RDIMM
8
8
2
1600
1333
RDIMM
16
1
1600
1333
3
1066
1066
2
1600
1333
3
1066
1066
2
1600
1333
3
1066
1066
2
1600
1333
RDIMM
8
8
RDIMM
16
4
4
RDIMM
8
8
RDIMM
16
8
RDIMM
16
8
RDIMM
16
16
LRDIMM
16
16
2
1333
1066
RDIMM
16
16
4
3
1066
1066
RDIMM
16
16
8
3
1066
1066
16
8
4
RDIMM
16
16
3
1066
1066
LRDIMM
32
16
2
1333
1066
512 GB
LRDIMM
32
32
2
1333
1066
320 GB
640 GB
LRDIMM
32
32
16
3
1066
1066
384 GB
768 GB
LRDIMM
32
32
32
3
1066
1066
© Fujitsu Technology Solutions 2012
Seite 9 (19)
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
Performance Mode Konfigurationen PRIMERGY RX500 S7
2 CPU
System
4 CPU
System
DIMM Typ
DIMM
Kap. GB
Bank 1
DIMM
Kap. GB
Bank 2
DIMM
Kap. GB
Bank 3
DPC
Wert
Max MHz
Performance
optimized
Max Mhz
Low-voltage
optimized
1
1600
1333
32 GB
64 GB
RDIMM
4
64 GB
128 GB
RDIMM
8
1
1600
1333
96 GB
192 GB
RDIMM
8
4
2
1600
1333
128 GB
256 GB
RDIMM
8
8
2
1600
1333
RDIMM
16
1
1600
1333
RDIMM
8
8
3
1066
1066
RDIMM
16
4
2
1600
1333
RDIMM
8
8
3
1066
1066
RDIMM
16
8
2
1600
1333
RDIMM
16
8
3
1066
1066
160 GB
320 GB
192 GB
384 GB
224 GB
448 GB
256 GB
512 GB
288 GB
320 GB
4
8
4
RDIMM
16
16
2
1600
1333
LRDIMM
16
16
2
1333
1066
576 GB
RDIMM
16
16
4
3
1066
1066
640 GB
RDIMM
16
16
8
3
1066
1066
RDIMM
16
16
16
3
1066
1066
LRDIMM
32
16
2
1333
1066
384 GB
768 GB
512 GB
1024 GB
LRDIMM
32
32
2
1333
1066
640 GB
1280 GB
LRDIMM
32
32
16
3
1066
1066
768 GB
1536 GB
LRDIMM
32
32
32
3
1066
1066
Die Tabellen enthalten insbesondere die klassischen Speichergrößen in Zweierpotenzen, d.h. 8, 16, 32, 64,
128 GB usw. Durch die Erhöhung von drei auf vier Speicherkanäle pro Prozessor in der neuen
Systemgeneration ist die Besonderheit der Vorgängergenerationen, dass diese Speichergrößen einen
leichten Performance-Nachteil bedeutet haben, wieder aufgehoben. Der Nachteil hatte sich dadurch
ergeben, dass das optimale Interleaving über drei Speicherkanäle bei diesen Speichergrößen nicht möglich
ist.
Die folgenden Grafiken zeigen die Wechselwirkungen zwischen Speicherkapazität, Energieersparnis und
maximal möglicher Speicher-Performance, ausgedrückt durch Speicherfrequenz. Die Grafik stellt dar, dass
Kapazität und Energieersparnis in gewissem Umfang auf Kosten der Speicher-Performance gehen. Es sei
aber daran erinnert, dass die Erreichbarkeit einer Speicherfrequenz auch vom konfigurierten Prozessortyp
abhängt.
Seite 10 (19)
© Fujitsu Technology Solutions 2012
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
Memory performance / capacity / energy tradeoff Xeon E5-2600 based
PRIMERGY servers
DDR Performance: Performance optimized
DDR Performance: Low-voltage optimized
Maximum Memory Speed (MHz)
1,600
1,333
1,066
800
16
32
48
64
96
128
160
192
224
256
288
320
384
512
640
768
Memory Capacities (GB)
Memory performance / capacity / energy tradeoff PRIMERGY RX500 S7
DDR Performance: Performance optimized
DDR Performance: low-voltage optimized
Maximum Memory Speed (MHz)
1,600
1,333
1,066
800
64
128
192
256
320
384
448
512
576
640
768
1024
1280
1536
Memory Capacities (GB)
© Fujitsu Technology Solutions 2012
Seite 11 (19)
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
Independent Mode Konfigurationen
Hierunter fallen alle Konfigurationen, die weder im Performance Mode noch redundant sind. Außer den
beiden Regeln, dass

UDIMMs, RDIMMs und LRDIMMs, und
 RDIMMs der Bauweisen x4 und x8
nicht gemischt werden dürfen, gibt es hier keine Einschränkungen.
Ein besonderes Augenmerk gilt Konfigurationen mit weniger als vier DIMMs pro Prozessor, also weniger als
der Minimalzahl, die für Performance Mode Konfigurationen benötigt wird. Außer sehr geringen
Speicherkapazitäten können Überlegungen zu weiterer Energieeinsparung Grund für solche Konfigurationen
sein. Eine Ersparnis ergibt sich ja nicht nur durch 1.35 V Betrieb und Heruntertaktung einer gegebenen
Speicherbestückung, sondern auch durch eine Minimierung der DIMM Anzahl. Die unten folgende
quantitative Bewertung, wie sich eine Bestückung von weniger als vier Speicherkanälen auf die SystemPerformance auswirkt, legt nahe, vom 1-way Interleaving – dem entspricht eine Bestückung mit nur einem
DIMM pro Prozessor – abzuraten. Die Fälle 2-way und 3-way – dem entsprechen zwei bzw. drei DIMMs pro
Prozessor – können hingegen zu ausgewogenen Resultaten hinsichtlich Performance und Energieverbrauch
führen.
Symmetrische Speicherbestückungen
In einem eigenen Abschnitt soll abschließend nochmals herausgestellt werden, alle konfigurierten
Prozessoren nach Möglichkeit gleich mit Speicher zu bestücken und die NUMA = enabled Voreinstellung
des BIOS ohne triftigen Grund nicht zu verändern. Nur so wird der QPI basierten Mikroarchitektur der
Systeme Rechnung getragen.
Selbstverständlich berücksichtigt eine werksseitige Vorinstallation diesen Sachverhält. Die bestellten
Speichermodule werden so gleichmäßig wie möglich über die Prozessoren verteilt.
Diese Maßnahmen und die damit zusammenhängende Unterstützung durch die Betriebssysteme schaffen
die Voraussetzung, Anwendungen so weit wie möglich mit lokalem, performantem Speicher zu bedienen. In
der Regel werden die Speicherzugriffe der Prozessorkerne auf DIMM Module erfolgen, die dem jeweiligen
Prozessor unmittelbar zugeordnet sind. Zur Abschätzung, welchen Performance-Vorteil dies bedeutet,
folgen unten Messergebnisse für den Fall, dass der Speicher eines 2-way Servers zwar symmetrisch
bestückt ist, aber die BIOS Option NUMA = disabled gesetzt ist. Statistisch erfolgt dann jeder zweite
Speicherzugriff auf fernen Speicher. Der bei asymmetrischer oder einseitiger Speicherbestückung mögliche
Fall, dass eine Anwendung zu 100% mit fernem Speicher bedient wird, ist auf den doppelten PerformanceVerlust des 50/50% Falls zu taxieren.
Seite 12 (19)
© Fujitsu Technology Solutions 2012
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
Quantitative Auswirkungen auf die Speicher-Performance
Nach der mit qualitativen Hinweisen versehenen funktionalen Beschreibung des Speichersystems folgen
nun konkrete Aussagen, mit welchem Performance-Gewinn oder -Verlust Unterschiede in der
Speicherkonfiguration verbunden sind. Zur Vorbereitung behandelt der erste Abschnitt die beiden
Benchmarks, die für eine Charakterisierung der Speicher-Performance herangezogen wurden.
Dann folgen in der Reihenfolge ihres Gewichts die bereits genannten Merkmale Interleaving der
Speicherkanäle, Speicherfrequenz und Interleaving der Ranks. Den Abschluss machen Messungen zum Fall
NUMA = disabled und zur Speicher-Performance unter Redundanz.
Die quantitative Untersuchung erfolgt jeweils getrennt für die Prozessorklassen Advanced, Standard und
Basic. Die Messungen fanden auf einer PRIMERGY RX200 S7 mit zwei Prozessoren unter dem
Betriebssystem Linux statt. Für die Prozessorklasse Advanced wurde stellvertretend der Prozessor Xeon
E5-2670 verwendet, für Standard Xeon E5-2630 und für Basic Xeon E5-2603. Eine entsprechende
Messreihe auf einer PRIMERGY RX500 S7 hat gezeigt, dass die quantitativen Verhältnisse mit einer
Schwankung von 3% gleich sind wie bei den Dual Socket Servern. Aus diesem Grund enthalten die
folgenden Tabellen nur die Ergebnisse der PRIMERGY RX200 S7.
Die Tabellen zeigen relative Performance. Die absoluten Messwerte für die Benchmarks STREAM und
SPECint_rate_base2006 unter idealen Speicherbedingungen, die in der Regel dem 1.0 Maßstab der hier
folgenden Tabellen entsprechen, sind in den Performance Reports der einzelnen Xeon E5-2600/4600
basierten PRIMERGY Server enthalten.
Ein wesentliches Ergebnis der Untersuchung soll von Anfang an klar herausgestellt werden. Der
Performance-Einfluss ist umso stärker, und Konfigurationsdetails sind um so sorgfältiger abzuwägen, je
stärker das verwendete Prozessormodell ist. Überlegungen, die für die leistungsfähigsten und teuersten
Prozessoren der Klasse Advanced unumgänglich sind, sind für die Klasse Basic häufig vernachlässigbar.
Die Messtools
Es gab Messungen mit den Benchmarks STREAM und SPECint_rate_base2006.
STREAM Benchmark
Der STREAM Benchmark von John McCalpin [L3] ist ein Tool zur Messung von Speicherdurchsatz. Der
Benchmark führt Kopier- und Rechenoperationen auf großen Arrays vom Datentyp double durch und weist
Ergebnisse für vier Zugriffstypen Copy, Scale, Add und Triad aus. Die letzten drei beinhalten
Rechenoperationen. Das Ergebnis ist stets ein in GB/s angegebener Speicherdurchsatz. Triad Werte
werden am häufigsten zitiert. Alle im Folgenden zur Quantifizierung von Speicher-Performance verwendeten
STREAM Messwerte folgen dieser Praxis und sind GB/s für den Zugriffstyp Triad.
STREAM ist der Industriestandard für die Messung der Speicherbandbreite von Servern, bekannt für seine
Fähigkeit, Speichersysteme mit einfachen Mitteln unter größtmögliche Last zu setzen. Es ist offensichtlich,
dass dieser Benchmark besonders geeignet für den hier vorliegenden Zweck ist, Einflüsse auf die SpeicherPerformance in einem komplexen Konfigurationsraum auszuloten. In jedem Fall wird STREAM die maximale
Performance-Auswirkung einer den Speicher betreffenden Konfigurationsmaßnahme zeigen, sowohl für
Verschlechterungen als auch Verbesserungen. Die im Folgenden genannten prozentualen Verhältnisse
beim STREAM Benchmark sind somit als Schranken für Performance-Effekte zu verstehen.
Beim Einfluss des Speichers auf die Anwendungs-Performance wird unterschieden zwischen der Latenz des
einzelnen Zugriffs und der von der Anwendung benötigten Bandbreite. Die Größen hängen zusammen, weil
die reale Latenz mit zunehmender Bandbreite ansteigt. Weiter hängt es von der Anwendung und der Qualität
des vom Compiler erzeugten Maschinencodes ab, in welchem Umfang die Latenz durch eine
Parallelisierung des Speicherzugriffs „verborgen“ werden kann. Pauschale Prognosen für alle
Anwendungsszenarien sind vor diesem Hintergrund sehr schwer.
SPECint_rate_base2006
Der Benchmark SPECint_rate_base2006 wurde als Modell für kommerzielle Anwendungs-Performance
hinzugezogen. Er ist ein Bestandteil von SPECcpu2006 [L4] der Standard Performance Evaluation
Corporation (SPEC). SPECcpu2006 ist der Industriestandard für die Vermessung der Systemkomponenten
Prozessor, Speicherhierarchie und Compiler. Nach der großen Menge veröffentlichter Ergebnisse und deren
intensiver Verwendung in Vertriebsprojekten und technischen Untersuchungen handelt es sich im Bereich
der Server um den wichtigsten Benchmark.
© Fujitsu Technology Solutions 2012
Seite 13 (19)
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
SPECcpu2006 besteht aus zwei voneinander unabhängigen Suiten von Einzel-Benchmarks, die sich in der
überwiegenden Verwendung von integer bzw. floating-point Operationen unterscheiden. Der integer Teil ist
repräsentativ für kommerzielle Anwendungen und besteht aus 12 Einzel-Benchmarks. Der floating-point Teil
ist repräsentativ für technisch-wissenschaftliche Anwendungen und enthält 17 Einzel-Benchmarks. Das
Ergebnis eines Messlaufs ist jeweils das geometrische Mittel der Einzelergebnisse.
Innerhalb der Suiten wird ferner unterschieden zwischen dem speed Lauf mit nur einem Prozess und dem
rate Lauf mit einer konfigurierbaren Anzahl parallel arbeitender Prozesse. Offenbar ist die zweite Variante für
Server mit ihrer Vielzahl an Prozessorkernen und Hardware-Threads interessanter.
Schließlich wird hinsichtlich der zulässigen Compiler-Optimierung unterschieden: Beim peak Ergebnis dürfen
die Einzel-Benchmarks unabhängig voneinander optimiert werden, beim konservativeren base Ergebnis
müssen die Compiler-Flags bei allen Benchmarks gleich sein, und gewisse Optimierungen sind nicht erlaubt.
Damit ist erklärt, worum es sich bei SPECint_rate_base2006 handelt. Die integer Suite wurde gewählt, weil
kommerzielle Anwendungen beim Einsatz von PRIMERGY Servern überwiegen.
Eine regelkonforme Messung erfordert drei Durchläufe, und pro Einzel-Benchmark wird das mittlere
Ergebnis gewertet. Bei der hier beschriebenen technischen Untersuchung wurde hierauf verzichtet. Zur
Vereinfachung gab es stets nur einen Durchlauf.
Interleaving über die Speicherkanäle
Interleaving über die Speicherkanäle meint den Aufbau des physikalischen Adressraums durch Alternierung
zwischen den vier Kanälen eines Prozessors: die ersten 64 Bytes – dies ist die sogenannte Cache Line Size,
die Einheit von Speicherzugriffen aus Sicht des Prozessors – liegen im ersten Kanal, die zweiten im zweiten,
usw. Dadurch verteilt sich der nach dem Lokalitätsprinzip stets vorherrschende Zugriff auf aneinander
angrenzende Speicherbereiche über alle Kanäle. Es entsteht ein Performance-Gewinn durch
Parallelisierung.
Die folgende Tabelle zeigt den Performance-Nachteil für den Fall, dass das ideale 4-way Interleaving, das
mit Speicherbestückungen im Performance Mode erreicht wird, nicht gegeben ist. Die Tabelle zeigt deutlich
die bereits hervorgehobene Tatsache, dass der Performance-Einfluss umso deutlicher ausfällt, je
leistungsstärker der Prozessor ist.
Für 2-way und 3-way Interleaving mit moderatem Performance-Verlust kann es gute Gründe geben: eine
geringe benötigte Speicherkapazität oder eine Minimierung der DIMM Anzahl zur Energieeinsparung. Vom
1-way Interleaving, das eigentlich kein Interleaving ist und nur der Systematik halber so bezeichnet wird, ist
dagegen abzuraten. Die Leistungspotenziale von Prozessoren und Speichersystem stehen in diesem Fall in
keinem ausgewogenen Verhältnis.
Für die kommerzielle Anwendungs-Performance sind die Aussagen zu SPECint_rate_base2006
repräsentativ. Die Verhältnisse bei der durch STREAM ausgedrückten Speicherbandbreite sind als
Extremfälle zu verstehen, die in gewissen Anwendungsbereichen, insbesondere im HPC (High-performance
Computing) Umfeld, nicht auszuschließen sind. Auch unter den 12 Einzel-Benchmarks von
SPECint_rate_base2006 gibt es einen (libquantum), der sich annähernd wie STREAM verhält. Für die
meisten kommerziellen Lasten ist ein solches Verhalten jedoch unwahrscheinlich. Diese Bewertung der
Aussagekraft von STREAM und SPECint_rate_base2006 gilt nicht nur für den in diesem Abschnitt
behandelten Performance-Aspekt, sondern auch für alle folgenden Abschnitte.
Benchmark
STREAM
SPECint_rate_base2006
Prozessortyp
4-way
3-way
2-way
1-way
Advanced
1.00
0.81
0.57
0.29
Standard
1.00
0.80
0.55
0.28
Basic
1.00
0.87
0.64
0.33
Advanced
1.00
0.97
0.91
0.74
Standard
1.00
0.98
0.93
0.79
Basic
1.00
0.99
0.98
0.89
Bei Speicherbestückungen im Independent Mode kann es vorkommen, dass sich die pro Speicherkanal
vorhandenen Teilkapazitäten (GB pro Kanal) unterscheiden. Beispiele sind Bestückungen mit DIMMs
unterschiedlicher Größe oder Bestückungen mit fünf und mehr DIMMs gleicher Größe. Ein einheitliches
prozessorlokales Adressraumsegment lässt sich dann durch Alternieren über die Speicherkanäle nicht
aufbauen. Das Alternieren muss immer „aufgehen“. Dieses Problem wird durch eine Zerlegung des
Seite 14 (19)
© Fujitsu Technology Solutions 2012
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
physikalischen Adressraums in mehrere Segmente mit unterschiedlichem Interleaving gelöst. Durch
Gruppierung der vorhandenen DIMMs wird angestrebt, Segmente mit möglichst hohem Interleaving zu
erzeugen. Eine Bestückung pro Prozessor
2–1–1–1
mit zwei DIMMs am ersten Speicherkanal und je einem an den drei anderen wird beispielsweise zu
1–1–1–1
1
(Gruppe 1, 4-way Interleaving, 80% des Speichers, sehr gute Performance)
(Gruppe 2, 1-way Interleaving, 20% des Speichers, schlechte Performance)
aufgelöst.
Die Speicher-Performance einer Anwendung kann dann schwanken, je nachdem, aus welchem Segment die
Anwendung mit Speicher bedient wird. In sensiblen Anwendungsfällen kann dieses Phänomen ein Grund
sein, unterschiedliche Teilkapazitäten pro Speicherkanal zu vermeiden.
Speicherfrequenz
Die Einflüsse auf die effektive Speicherfrequenz wurden oben ausführlich behandelt. Energieeinsparung
(gesteuert über den BIOS Parameter DDR Performance) und große Speicherausbauten (3DPC
Konfigurationen; Verwendung der auf 1333 MHz begrenzten LRDIMMs) können Gründe sein, dass die
effektive Taktung geringer ist, als vom Prozessortyp maximal unterstützt.
Die folgende Tabelle dürfte hilfreich sein, diese Einflüsse gegeneinander abzuwägen. Die quantitativen
Aussagen sind hier bezogen auf die allen Messreihen gemeinsame unterste Speichertaktung 800 MHz. Das
ist eine Ausnahme von der sonst beachteten Regel, die Aussagen auf den Idealfall zu beziehen.
Die Taktung 800 MHz entsteht nur, wenn das BIOS auf die Einstellung DDR Performance = Energy
optimized verändert wird. Das Potenzial für Energieeinsparungen, die über die Einstellung DDR
Performance = Low-voltage optimized hinausgehen, ist jedoch sehr gering. Von der Speichertaktung
800 MHz ist deshalb eher abzuraten. Die Einstellung Low-voltage optimized führt zur Taktung mit 1333 oder
1066 MHz.
Für den Fall, dass eine abgesenkte Speicherfrequenz in Zusammenhang mit der Speicherkapazität steht, sei
ein Sachverhalt der Vollständigkeit halber noch erwähnt. Die Speicherkapazität kann einen impliziten
Einfluss auf die Anwendungs-Performance haben, etwa in Form von I/O-Raten. Ein solcher Einfluss ist in der
diesem Abschnitt zu Grunde liegenden Untersuchung selbstverständlich nicht berücksichtigt. In den
Vergleichen der Tabelle ist die unterschiedliche Speichertaktung der einzige Performance-Einfluss.
Benchmark
Prozessortyp
Advanced
STREAM
1600 MHz
1333 MHz
1066 MHz
800 MHz
1.82
1.59
1.31
1.00
1.57
1.30
1.00
1.18
1.00
1.13
1.07
1.00
1.09
1.05
1.00
1.02
1.00
Standard
Basic
Advanced
SPECint_rate_base2006
Standard
Basic
© Fujitsu Technology Solutions 2012
1.15
Seite 15 (19)
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
Interleaving über die Ranks
Die Methode des Alternierens über Speicherressourcen beim Aufbau des physikalischen Adressraums lässt
sich vom Interleaving über die Speicherkanäle auf ein Interleaving über die in einem Kanal befindlichen
Ranks fortsetzen.
Die Steuerung des Rank Interleaving erfolgt unmittelbar über Adressbits. Die beim Kanal Interleaving zur
Herstellung des 3-way Falls ausgeführte Bitarithmetik wird nicht gemacht. Aus diesem Grund kommt nur ein
Interleaving in Zweierpotenzen in Frage, d.h. es gibt nur ein 2-way, 4-way oder 8-way Rank Interleave. Eine
ungerade Anzahl Ranks im Speicherkanal führt stets zum 1-way Interleave, das nur der Systematik halber
als Interleave bezeichnet wird: bei 1-way wird ein Rank ausgeschöpft, bevor zum nächsten gewechselt wird.
Die Granularität des Rank Interleaving ist größer als beim Interleaving über die Kanäle. Das letztere war an
der 64 Bytes Cache Line Size ausgerichtet. Das Rank Interleaving orientiert sich an der 4 KB Seitengröße
der Betriebssysteme und steht in Zusammenhang mit der Physik von DRAM Speicher. Speicherzellen sind
in grober Beschreibung zweidimensional angeordnet. Es wird eine Zeile (engl. „Page“) eröffnet und
anschließend eine Spaltenposition ausgelesen. Solange die Zeile offen ist, können weitere Spaltenwerte mit
deutlich geringerer Latenz ausgelesen werden. Das gröbere Rank Interleaving ist auf diese Eigenschaft
abgestimmt.
Die Anzahl der Ranks pro Speicherkanal ergibt sich aus DIMM Typ und DPC Wert der Bestückung.
Die Tabelle ist auf ein 4-way Interleaving bezogen. Dieser Fall ist in den meisten Standard-Benchmarks für
PRIMERGY Server gegeben. 2DPC Konfigurationen mit größeren RDIMMs liefern in der Regel das beste
Verhältnis zwischen Speicherkapazität und Performance. Das 8-way Interleave, das nur in 2DPC
Konfigurationen mit LRDIMMs entstehen kann, ergibt gegenüber 4-way keine messbare Verbesserung und
wurde weggelassen.
2-way und 4-way Rank Interleaving liefern sehr gute Speicher-Performance. Der winzige zusätzliche Vorteil
von 4-way spielt nur dann eine Rolle, wenn es um das allerletzte Quäntchen Performance geht. Er ist in aller
Regel vernachlässigbar. Bei 1DPC Bestückungen mit single-rank 2 GB UDIMMs oder 4 GB RDIMMs tritt
jedoch der 1-way Fall ein. Hier sollte man sich über einen gewissen Performance-Nachteil im Klaren sein. In
sensiblen Anwendungsfällen sollte dieser Fall vermieden werden.
Die Speicher-Controller der Xeon E5-2600/4600 Prozessoren unterstützen maximal 8 Ranks pro
Speicherkanal. Bei 3DPC Konfigurationen mit LRDIMMs reduziert die Rank Multiplication Funktion dieses
DIMM Typs die 12 physikalischen Ranks auf 6 virtuelle. Es sind dann die virtuellen Ranks, die vom SpeicherController gesehen werden und dem Rank Interleaving unterliegen.
Benchmark
STREAM
SPECint_rate_base2006
Seite 16 (19)
Prozessortyp
4-way
2-way
1-way
Advanced
1.00
0.98
0.89
Standard
1.00
0.99
0.91
Basic
1.00
0.99
0.92
Advanced
1.00
0.99
0.96
Standard
1.00
0.99
0.97
Basic
1.00
1.00
0.99
© Fujitsu Technology Solutions 2012
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
Zugriff auf fernen Speicher
Bei den bisher beschriebenen Untersuchungen mit den Benchmarks STREAM und SPECint_rate_base2006
wurde ausschließlich lokaler Speicher verwendet, d.h. der Prozessor greift auf DIMM Module seiner eigenen
Speicherkanäle zu. Es kommt nicht oder kaum zum Zugriff auf Module des Nachbarprozessors über die QPI
Links. Diese Situation ist insofern repräsentativ, als sie dank der NUMA Unterstützung in Betriebssystem und
systemnaher Software auch für den überwiegenden Anteil an Speicherzugriffen realer Anwendungen
gegeben ist.
Die folgende Tabelle zeigt die Auswirkung der BIOS Einstellung NUMA = disabled im Fall einer ansonsten
idealen Speicherkonfiguration, d.h. einer 4-way Rank-interleaved Performance Mode Konfiguration mit
RDIMMs unter der pro Prozessortyp höchstmöglichen Speicherfrequenz. Die Performance-Verschlechterung
tritt ein, weil statistisch jeder zweite Speicherzugriff auf einen fernen, d.h. dem Nachbarprozessor
zugeordneten DIMM erfolgt, und die Daten den Umweg über die QPI Links nehmen müssen.
Die Tabelle ist nur auf Dual Socket PRIMERGY Server anwendbar. Bei der PRIMERGY RX500 S7 ist das
Abschalten der NUMA Unterstützung nicht möglich. Der Verlust durch fehlendes NUMA wäre höher als bei
den Dual Socket Servern, weil der statistische Anteil an Zugriffen auf fernen Speicher 75% statt 50% beträgt,
und weil der Fall eintreten kann, dass ein dritter Prozessor als Vermittler eines fernen Speicherzugriffs
fungieren muss: in der PRIMERGY RX500 S7 ist jeder Prozessor nur mit zwei von drei Nachbarprozessoren
direkt gekoppelt.
Benchmark
STREAM
SPECint_rate_base2006
Prozessortyp
NUMA = enabled
NUMA = disabled
Advanced
1.00
0.68
Standard
1.00
0.74
Basic
1.00
0.81
Advanced
1.00
0.91
Standard
1.00
0.93
Basic
1.00
0.95
Der physikalische Adressraum wird bei NUMA = disabled durch ein zusätzliches feinmaschiges Alternieren
zwischen den Prozessoren aufgebaut. Dieses Alternieren setzt die gleiche Speicherkapazität an beiden
Prozessoren voraus. Ist diese Randbedingung nicht gegeben, so erfolgt wiederum eine Zerlegung des
Adressraums in einen Hauptteil, der das inter-socket Interleaving zulässt, und einen prozessorlokalen Rest.
Das Experiment mit der Einstellung NUMA = disabled wurde weniger wegen der Ausnahmefälle
unternommen, in denen diese Einstellung empfohlen wird, weil die NUMA Unterstützung in System- oder
systemnaher Software fehlt oder unbefriedigend ist. Das Experiment ist vor allem hilfreich, die Auswirkung
eines überwiegenden oder ausschließlichen Zugriffs auf fernen Speicher abzuschätzen. Dieser Fall kann
eintreten, wenn ein Prozessor gar nicht mit Speicher bestückt wird, oder sich die pro Prozessor
konfigurierten Speicherkapazitäten stark unterscheiden. Der Performance-Verlust gegenüber lokalem Zugriff
kann dann bis zum Doppelten des in der Tabelle angegeben Verlusts betragen.
© Fujitsu Technology Solutions 2012
Seite 17 (19)
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
Speicher-Performance unter Redundanz
Für die Xeon E5-2600/4600 basierten PRIMERGY Server gibt es zwei Redundanzoptionen. Beim Mirroring
sind alle vier Speicherkanäle eines Prozessors bestückt, aber zwei Kanäle spiegeln die anderen zwei. Dem
Betriebssystem stehen 50% des tatsächlich konfigurierten Speichers zur Verfügung. Beim Sparing oder
genauer Rank Sparing ist ein Rank pro Speicherkanal unbenutzter Ersatz für den Fall, dass ein aktiver Rank
wegen eines defekten DRAM Chips ausfällt. Die für das Betriebssystem verfügbare Nettospeicherkapazität
hängt in diesem Fall von DIMM Typ und DPC Wert ab.
Die Tabelle zeigt die Auswirkung, wenn die Redundanzoptionen im Fall einer ansonsten idealen
Speicherkonfiguration aktiviert werden, d.h. einer 4-way Rank-interleaved Performance Mode Konfiguration
mit RDIMMs unter jeweils höchstmöglicher Speicherfrequenz.
Benchmark
STREAM
SPECint_rate_base2006
Prozessortyp
Keine Redundanz
Rank Sparing
Mirroring
Advanced
1.00
0.89
0.77
Standard
1.00
0.91
0.77
Basic
1.00
0.92
0.84
Advanced
1.00
0.96
0.96
Standard
1.00
0.97
0.97
Basic
1.00
0.99
0.99
Die Spalte Sparing ist identisch mit dem oben im Abschnitt Interleaving über die Ranks gezeigten 1-way
Rank Interleaving, weil ein Reserve-Rank stets zu einer ungeraden Anzahl aktiver Ranks führt. Die Spalte
Mirroring ist mit dem oben im Abschnitt Interleaving über die Speicherkanäle gezeigten 2-way Interleaving
hingegen nicht identisch, weil beide Hälften des Spiegels für den lesenden Zugriff genutzt werden können.
Ein Vergleich mit dem entsprechenden Untersuchungsergebnis für die Xeon 5600 basierte
Vorgängergeneration [L5] zeigt, dass sich die Effizienz der Redundanzfunktionen spürbar verbessert hat.
Seite 18 (19)
© Fujitsu Technology Solutions 2012
WHITE PAPER  SPEICHER-PERFORMANCE XEON E5-2600/4600 BASIERTER SYSTEME
VERSION: 1.2  2012-12-07
Literatur
[L1] PRIMERGY Systeme
http://primergy.de/
[L2] PRIMERGY Performance
http://www.fujitsu.com/de/products/computing/servers/primergy/benchmarks/
[L3] STREAM Benchmark
http://www.cs.virginia.edu/stream/
[L4] SPECcpu2006 Benchmark
http://docs.ts.fujitsu.com/dl.aspx?id=04351fd2-8a69-42a3-ba1c-4342dcc89b89
[L5] Speicher-Performance Xeon 5600 (Westmere-EP) basierter Systeme
http://docs.ts.fujitsu.com/dl.aspx?id=085ccf08-2dab-4c04-91af-61ab7be4edc2
[L6] Speicher-Performance Xeon E7-8800/4800/2800 (Westmere-EX) basierter Systeme
http://docs.ts.fujitsu.com/dl.aspx?id=c2599c0b-e67a-4093-a99a-d56e825f5832
Kontakt
FUJITSU
Website: http://www.fujitsu.com/de/
PRIMERGY Product Marketing
mailto:[email protected]
PRIMERGY Performance und Benchmarks
mailto:[email protected]
Alle Rechte vorbehalten, insbesondere gewerbliche Schutzrechte. Änderung von technischen Daten sowie Lieferbarkeit vorbehalten. Haftung oder Garantie
für Vollständigkeit, Aktualität und Richtigkeit der angegebenen Daten und Abbildungen ausgeschlossen. Wiedergegebene Bezeichnungen können Marken
und/oder Urheberrechte sein, deren Benutzung durch Dritte für eigene Zwecke die Rechte der Inhaber verletzen kann.
Weitere Einzelheiten unter http://www.fujitsu.com/de/resources/navigation/terms-of-use.html
2012-12-07 WW DE
© Fujitsu Technology Solutions 2012
Copyright © Fujitsu Technology Solutions 2012
Seite 19 (19)