Pour nehalem: rolfed.com/nehalem/nehalemPaper.pdf
Each core in the architecture has a 128-bit write port and a
128-bit read port to the L1 cache.
128 bits = 16 octets/lecture horloge ET 128 bits = 16 octets/horloge écrire (je peux combiner lire et écrire en cycle unique?)
The L2 and L3 caches each have a 256-bit port for reading or writing,
but the L3 cache must share its port with three other cores on the chip.
Les ports de lecture et d'écriture Can L2 et L3 peuvent-ils être utilisés dans une horloge unique?
Each integrated memory controller has a theoretical bandwidth
peak of 32 Gbps.
Latency (horloge tiques), certains mesurés par CPU-Z latencytool ou par lat_mem_rd de lmbench - les deux utilisations à pied de liste chaînée longue pour mesurer correctement les noyaux modernes hors de commande comme Intel Core i7
L1 L2 L3, cycles; mem link
Core 2 3 15 -- 66 ns http://www.anandtech.com/show/2542/5
Core i7-xxx 4 11 39 40c+67ns http://www.anandtech.com/show/2542/5
Itanium 1 5-6 12-17 130-1000 (cycles)
Itanium2 2 6-10 20 35c+160ns http://www.7-cpu.com/cpu/Itanium2.html
AMD K8 12 40-70c +64ns http://www.anandtech.com/show/2139/3
Intel P4 2 19 43 200-210 (cycles) http://www.arsc.edu/files/arsc/phys693_lectures/Performance_I_Arch.pdf
AthlonXP 3k 3 20 180 (cycles) --//--
AthlonFX-51 3 13 125 (cycles) --//--
POWER4 4 12-20 ?? hundreds cycles --//--
Haswell 4 11-12 36 36c+57ns http://www.realworldtech.com/haswell-cpu/5/
Et bonne source sur les données de latence est 7cpu web-site, par exemple pour Haswell: http://www.7-cpu.com/cpu/Haswell.html
Plus sur le programme lat_mem_rd est dans man page ou here on SO.
@osgx: Déplacer vers serverfault etc, pas une question de programmation est-ce? – TFD
@TFD, non, ceci est * très * lié à la programmation. –
Consultez «Analyse de la bande passante du cache sur l'architecture Intel Core 2 » par Robert Schone, Wolfgang E. Nagel et Stefan Pfleurger, Centre d'information et de calcul haute performance, Technische Universität Dresden, 01062 Dresde, Allemagne Dans cet article, les bandes passantes mesurées entre les cœurs de calcul et les différents caches sont présentées. Le banc d'essai STREAM1 est l'un des noyaux les plus utilisés par les scientifiques pour déterminer la bande passante mémoire . Pour un aperçu plus approfondi, le benchmark STREAM a été repensé pour obtenir les valeurs exactes pour les petits problèmes. – osgx