+ All Categories
Home > Documents > Arhitectura Sistemelor de Calcul Curs 14 -...

Arhitectura Sistemelor de Calcul Curs 14 -...

Date post: 07-Feb-2018
Category:
Upload: truongdien
View: 253 times
Download: 3 times
Share this document with a friend
43
1 Arhitectura Sistemelor de Calcul Curs 14 Universitatea Politehnica Bucuresti Facultatea de Automatica si Calculatoare cs.pub.ro curs.cs.pub.ro 2 Cuprins Top 500 Supercomputers (http://www.top500.org) Prezentare generala Benchmark LINPACK(HPL) Top 10 Motivatie Info locatie/furnizor Arhitectura Performante LINPACK OS & Software Aplicatii Concluzii Top 500 Cate ceva despre examen: mod de notare, etc…
Transcript
Page 1: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

1

Arhitectura Sistemelor de Calcul – Curs 14

Universitatea Politehnica Bucuresti

Facultatea de Automatica si Calculatoare

cs.pub.ro

curs.cs.pub.ro

2

Cuprins

• Top 500 Supercomputers (http://www.top500.org)

– Prezentare generala

– Benchmark – LINPACK(HPL)

• Top 10

– Motivatie

– Info – locatie/furnizor

– Arhitectura

– Performante LINPACK

– OS & Software

– Aplicatii

• Concluzii Top 500

• Cate ceva despre examen: mod de notare, etc…

Page 2: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

2

3

www.top500.org

• Proiect demarat in 1993 (Iunie 1993)

• Lista actualizata a celor mai puternice 500 de sisteme de calcul de uz general, disponibile comercial in lume si folosite la aplicatii complexe

• Statisticile referitoare la supercalculatoare sunt interesante pentru – Dezvoltatorii de sisteme (producatorii de HW & SW)

– Utilizatori

– Potentialii viitori utilizatori

• Se doreste cunoasterea – Numarului si locatiei sistemelor

– Domeniilor de aplicatie ale sistemelor facilitarea unor potentiale colaborari

4

www.top500.org

• Lista este publicata de 2 ori pe an

• Benchmark – versiune paralela a Linpack – HPL (Jack Dongarra @ ICL, University of Tennessee) – http://www.netlib.org/benchmark/hpl/

– Rezolvarea unui sistem dens de ecuatii liniare

– Nu reflecta intr-un mod exhaustiv performanta intregului sistem!

– Dimensiunea problemei poate fi modificata pentru a se potrivi cel mai bine pe arhitectura sistemului masurat

• A 36-a lista a fost publicata la SC10 (Supercomputing Conference – US)

• A 37-a va fi publicata la ISC11 (International Supercomputing Conference – Hamburg, Germania)

Page 3: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

3

5

The LINPACK Benchmark

• Linpack a fost ales pentru ca – Este extrem de raspandit si utilizat – Date si teste pentru acest program sunt disponibile pentru “toate”

sitemele relevante din lume

• Benchmark-ul masoara cat de repede rezolva computer-ul un sistem dens de ecuatii liniare A·x=b de dimensiune n · n

• Solutia se bazeaza pe metoda eliminarii Gaussiene, utilizand pivotarea partiala

• Conduce la 2/3 · n3 + n2 operatii in virgula mobila O(n3)

• Se exclude utilizarea metodelor optimizate de inmultire a matricelor de genul metodei lui Strassen O(n2)

• In acest mod se vor genera milioane de operatii in virgula mobila pe secunda (Mflop/s)

• Rezolvarea sistemelor de ecuatii liniare este o problema intalnita frecvent in aproape orice aplicatie stiintifica sau inginereasca

6

The LINPACK Benchmark

• Avantaje

– Rpeak = performanta maxima teoretica de varf (in functie de CPU)

– Linpack ofera ca rezultat un singur numar

• Rmax = performanta maxima realizata

– Usor de definit si usor de clasificat pe baza lui

– Permite modificarea dimensiunii problemei – Jaguar 5.4x106

– Ocupa sistemul testat cu un job de lunga durata

• Dezavantaje

– Scoate in evidenta doar viteza “peak” si numarul de procesoare

– Nu evidentiaza rata de transfer locala (bandwidth)

– Nu evidentiaza reteaua de comutare

– Nu testeaza mecanisme de tipul gather/scatter

• Un singur numar nu poate caracteriza performanta totala a

unui sistem de calcul!

Page 4: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

4

7

Cuprins

• Top 500 Supercomputers (http://www.top500.org)

– Prezentare generala

– Benchmark – LINPACK(HPL)

• Top 10

– Motivatie

– Info – locatie/furnizor

– Arhitectura

– Performante LINPACK

– OS & Software

– Aplicatii

• Concluzii Top 500

• Cate ceva despre examen: mod de notare, etc…

8

Motivatie – HW Then & Now…

Page 5: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

5

9

Motivatie – Domenii de Aplicatie

(No) more

Kaboom…

10

Motivatie – The Earth-Simulator

• Simulari atmosferice pentru Agentia Aerospatiala a Japoniei

• Simulari oceanice pentru Centrul Japonez de Stiinte si Tehnologii Marine

• Simulari industriale

• Simulari atomice pentru Insititutul Japonez de Cercetari Atomice

Page 6: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

6

11

(94) – NEC Earth-Simulator

• Site: The Earth Simulator Center

• Familia de sisteme: NEC Vector

• Model: SX6 (SX9)

• Procesor: NEC 1000MHz

• OS: Super-UX

• Arhitectura: MPP

• Aplicatii: studiul mediului

• Anul instalarii: 2002

• Numar de procesoare: 5120

• Rmax(TFlops): 35.86

• Rpeak(TFlops): 40.96

• Interconectare: Multi-stage crossbar

• No 1 intre 2002-2004

12

Procesoare Vectoriale SX6

• Unitate Scalara (SU)

• Unitate Vectoriala (VU)

• Frecventa – 500 MHz

• SU – procesor super-scalar: 64Kb instr cache; 64Kb data cache; 128 registrii de uz general

• VU – 72 registrii vectoriali cu 256 elemente & 8 seturi de 6 benzi de asamblare pentru operatii logice si aritmetice

• Tehnologie de fabricaţie: LSI, 0.15µm CMOS, 60 mil. tranzistori

• Consum 140 W

Page 7: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

7

13

Arhitectura Earth-Simulator

14

Arhitectura Fizica Earth-Simulator

• Fiecare 2 noduri sunt instalate într-un container (1x1.4x2m)

• Fiecare container consumă 20 KW 8MW

• Memoria sistemului este de 10TB

• Spatiu de stocare pe disc 700 TB

• Stocare in masa pe banda 1.6 PB

Page 8: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

8

15

(299) – MareNostrum JS20 Cluster

• Site: Barcelona Supercomputing Center

• Familia de sisteme: IBM Cluster

• Model: BladeCenter JS20 Cluster

• Procesoare: PowerPC 970 2.3 GHz

• OS: SuSE Linux Enterprise Server 9

• Arhitectura: Cluster

• Aplicatii: Medicina

• Anul instalarii: 2006

• Numar de procesoare: 10240

• Rmax(TFlops): 62.630

• Rpeak(TFlops): 94.208

• Interconectare: Red Myrinet

16

Arhitectura MareNostrum

• Memorie totala 20TB

• Capacitate de stocare: 370TB

• Este format din 44 de rack-uri ce ocupa 120m2

Page 9: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

9

17

Aplicatii MareNostrum

• Computational Sciences: – Computer Architecture

– Performance Tools

– Grid Computing & Clusters

• Earth Sciences – Air Quality

– Meteorological Modelling

– Mineral Dust

– Climate Change

• Life Sciences – Molecular Modelling & Bioinformatics

– Computational Genomics

– Electronic & Atomic Protein Modelling

18

(268) – Columbia – SGI Altix

• Site: NASA/Ames Research Center/NAS

• Familia de sisteme: SGI® Altix™

• Model: SGI® Altix™ 3700, Voltaire Infiniband

• Procesoare: Intel IA-64 Itanium 2 1.5 GHz

• OS: SuSE Linux Enterprise Server 9

• Arhitectura: MPP

• Aplicatii: Cercetari aerospatiale

• Anul instalarii: 2004

• Numar de procesoare: 10240

• Rmax(TFlops): 51.870

• Rpeak(TFlops): 60.960

• Interconectare: Numalink/Infiniband

Page 10: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

10

19

Columbia – Arhitectura

• Botezat astfel în memoria echipajului de pe Columbia (1 februarie 2001)

• Utilizeaza 20 superclustere Altix™ din seria 3000

– 8 SGI Altix 3700 si 12 Altix 3700 Bx2

– 4 din Bx2-uri formeaza un 2048-PE (processor shared memory environment)

• Are 10.240 procesoare Intel Itanium 2 (1.5GHz, 6MB Cache)

• Pana la 24 TB de Global shared memory pe fiecare cluster

20

Columbia – Interconectare

• Nodurile sunt conectate prin Voltaire InfiniBand si prin Ethernet de 1 si 10 Gb/s

• Columbia este conectat la un on-line RAID printr-o conexiune Fibre Channel 440TB

• Conectarea procesoarelor prin SGI®NUMAlink™ design modular

– 2048 de procesoara folosesc NumaLink si pentru conectarea dintre noduri

– Singura tehnologie care ofera global shared memory si intre noduri, nu doar in cadrul clusterului

Page 11: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

11

21

Columbia – Software

• OS: SGI ProPack 4 – bazat pe SUSE Linux

• Compilatoare Intel® Fortran/C/C++ & Gnu

• Fiecare nod de 512 procesoare ofera – Latenţă mică la accesul mem (<1 ms) → reduce

overheadul in comunicatie

– Global shared mem de 1TB → procesele mari rămân rezidente

• Optim pentru aplicatii cu comunicatie masiva intre procesoare – Simulari fizice in care domeniul este

discretizat CFD

– Prognoza meteo & Nanotehnologii

– N-Body simulations Astrofizica

22

Columbia – Aplicatii

• Cart3D: – O simulare utilizata pentru a prezice traiectoria unei bucati de spuma desprinse in timpul ascensiunii navetei spatiale – Culorile reprezinta presiunea pe suprafata spumei

• Debris: – Codul calculeaza traiectoriile resturilor desprinse din vehicolul orbital in timpul

ascensiunii – Ajuta la evaluarea periculozitatii acestor resturi

• Overflow: – Un cod CFD complex utilizat pentru a proiecta si evalua modificarile vehiculelor aerospatiale – Imaginea prezinta campul de presiune in jurul navetei spatiale la viteza de 2.46Mach, la o altitudine de aproximativ 22km – Culorile reprezinta presiunea si tonalitatile de gri din jurul vehiculului, densitatea aerului

• Phantom: – Este un alt cod CFD utilizat pentru a simula flow-uri 3D, nestationare in motoare cu

reactie – Iata asadar presiunea in pompa de combustibil a motorului principal al navetei

spatiale, ce functioneaza cu hodrogen lichid

Page 12: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

12

23

(13) – Jugene BlueGene/P

• Site: Forschungszentrum Juelich (FZJ)

• Familia de sisteme: IBM BlueGene/P

• Model: eServer Blue Gene/P Solution

• Procesor: PowerPC 450 850MHz

• OS: CNK/SLES 9

• Arhitectura: MPP

• Aplicatii: Cercetare

• Anul instalarii: 2009

• Numar de core-uri: 294.912

• Rmax(TFlops): 825.500

• Rpeak(TFlops): 1.002.701

• Consum: 2.268 KW

• Interconectare: Proprietary

24

Arhitectura IBM BlueGene

• Program initiat de IBM in 1999 pentru a construi “a petaflop scale machine”

• BlueGene/L – primul pas, bazat pe procesoare PowerPC

– Spatiu de adresare mare

– Compilatoare standard

– Bazat pe middleware de “message passing” deja existent

– A necesitat adaugiri semnificative fata de sistemul PowerPC standard

• Un nod computational = computer-on-a-chip – ASIC:

– Procesoare CMOS (IBM PowerPC 440 700 MHz ): 2 CPU/Chip

– Memorie DRAM embedded

– L1-3 cache embedded

– Multiple module de interconectare folosind retele de comutare de mare viteza

Page 13: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

13

25

Arhitectura IBM BlueGene (2)

• Cache pe procesor: 32k/32k L1 cache, 2k L2 cache – comunica printr-un modul SRAM rapid cu celalalt cache – 4MB L3 cache comun pentru cele 2 procesoare – L2 si L3 sunt coerente intre cele doua procesoare

• Memorie: 512 MB DDR RAM pe card cu bandwidth de 5.5 GB/s 32768 GB – Controler de memorie externa de tip DDR integrat on-chip

• Interconectare: – Tor 3D cu un router pe nod (32 x 32 x 64) – Procesor I/O dedicat - un proces/nod, 2 thread-uri/proces

• I/O extern: – Noduri dedicate pentru I/O extern – Reteaua este de tip arborescent – Se foloseste gigabit Ethernet & un adaptor pentru reteaua JTAG

• OS – “Unix-like environment” functionalitatile OS distribuite intre nod-ul de calcul si nodul

de I/O – CNK (Compute Node Kernel) – Linux

• Software – MPI – Co-arrays – UPC

26

Arhitectura IBM BlueGene (3)

Page 14: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

14

27

Retele de Comunicatie IBM BlueGene

• Nodurile sunt atasate la 5 retele de comunicatie: – Retea toroidala 3D pentru

comunicatii intre noduri (175MB/s)

– Retea colectiva de comunicatii (350MB/s)

– Retea globala de intreruperi si bariere

– Pentru I/O – Gigabit Ethernet

– Joint Test Access GroupGigabit Ethernet – pentru control si monitorizare

28

• Favorizeaza aplicatii care utilizeaza comunicarea cu vecinii imediati

• BlueGene e dezvoltat pentru aplicatii cu volum mare de date – Analiza proteinelor

• Interactiunea intre medicamente si proteine • Catalizarea enzimelor • Rafinarea structurilor moleculare • Identificarea parametrilor unor structuri folosite in recunoasterea

“impaturirii” unor proteine • Identificarea parametrilor in structuri din bazele de date de chimie

– Modelare si simulare – Data Mining – Fizica atomica: similar cu ASC Purple – Dinamica moleculara (inclusiv ab-initio) – Hidrodinamica steady state si turbulenta – Astrofizica

• Daca cercetarile vor avea succes se vor putea vindeca boli precum – Alzheimer – Fibroza cistica – Boala vacii nebune

Aplicatii IBM BlueGene

Page 15: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

15

29

Top 10

30

10 – RoadRunner

• Site: DOE/NNSA/Los Alamos NL

• Familia de sisteme:

• Model: BladeCenter QS22 Cluster

• Procesoare: PowerXCell 8i 3.2 GHz

• OS: Linux

• Arhitectura: Cluster

• Memorie: 104TB

• Aplicatii: Cercetare

• Anul instalarii: 2008

• Numar de procesoare: 122.400

• Rmax(PFlops): 1,042 (NMax 2,25M)

• Rpeak(PFlops): 1,376

• Consum: 2345 KW

• MFlops/Watt: 444

• Interconectarea: Voltaire Infiniband

Page 16: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

16

31

Arhitectura RoadRunner

32

De ce RoadRunner?

Page 17: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

17

33

RoadRunner HW/SW

34

Programare RoadRunner

Page 18: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

18

35

Programare Hibrida pe RoadRunner

36

Aplicatii RoadRunner

Page 19: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

19

37

9 – Terra 100 Bull

• Site: Commissariat a l'Energie Atomique (CEA)

• Familia de sisteme: Bull SA

• Model: Bull Bullx super-node S6010/S6030

• Procesoare: Intel EM64T Xeon 75xx (Nehalem-EX) 2.26GHz

• OS: Linux

• Arhitectura: Cluster

• Aplicatii: Cercetari militare

• Anul instalarii: 2010

• Numar de core-uri: 138.368

• Rmax(PFlops): 1,05 (NMax 4,93M)

• Rpeak(PFlops): 1,255

• Consum: 4590 KW

• MFlops/Watt: 229

• Interconectare: Infiniband QDR

• Memorie principala: 29904GB

38

Tera-100 – Aplicatii

• Destinat in principal simularilor de arme nucleare

• Investigarea momentelor premergatoare unei detonari nucleare

• Simularile informatice sunt realizate pe baza modelelor fizice si matematice dezvoltate de catre CEA

• Datele initiale utilizate sunt – Cele ale experimentelor din Oceanul Pacific din 1995 si 1996 – Cele obtinute cu detectorul Airix & Laser Megajoule in locatiile din

Moronvillers – Laserul Megajoule permite de asemenea crearea de date, mai ales legate de

fuziunea nucleara, utilizata in bombele cu Hidrogen

• Arhitectura Tera-100: – 4,300 de Servere Bullx S Series – Memorie Principala 300TB – Capacitate de stocare de peste 20PB – Bandwidth la sistemul global de fisiere 500GB/sec – cel mai rapid din lume la

ora actuala (utilizand LustreFS) – Dezvoltat in totalitate in Uniunea Europeana (in afara de procesoarele Intel)

Page 20: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

20

39

8 – Hopper Cray XE6

• Site: National Energy Research Scientific Computing Center

• Familia de sisteme: Cray XE

• Model: Cray XE6

• Procesor: AMD Opteron 2.1 GHz

• OS: Linux

• Arhitectura: MPP

• Aplicatii: Cercetare

• Anul instalarii: 2010

• Numar de core-uri: 153.408

• Rmax(TFlops): 1.054.000 (NMax 4.58M)

• Rpeak(TFlops): 1.288.630

• Consum: 2910 KW

• MFlops/Watt: 362

• Interconectare: Custom

40

Hopper – Interconnect

Page 21: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

21

41

Hopper – Diagrama Sistemului I/O

42

Hopper – Aplicatii

• Explicarea LED-Efficiency-Droop

Electron + Electron hole Electron + hole + carrier

= light = no light + vibrations

• Detectie de particule “grele”

Page 22: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

22

43

Hopper – Aplicatii (2)

• Simularea “accelerarii” acceleratoarelor de particule (LHC)

Laser plasma wakefiled

• “Calare” pe o raza de lumina… timpul se opreste si spatiul se contracta

44

Hopper – Aplicatii (3)

• Detectarea unor galaxii satelit formate din “materie neagra”

Page 23: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

23

45

7 – Pleiades

• Site: NASA/Ames Research Center/NAS • Familia de sisteme: SGI Altix • Model: SGI Altix ICE 8200EX/8400EX • Procesor: Xeon HT QC 3.0/Xeon 5570/5670 2.93 Ghz • OS: Linux • Arhitectura: MPP • Aplicatii: Cercetare • Anul instalarii: 2011 (2008) • Numar de core-uri: 111.104 • Rmax(PFlops): 1,088

– (Nmax 3,34M)

• Rpeak(PFlops): 1,315 • Consum: 4.102KW • MFlops/Watt: 830 • Interconectare: Infiniband DDR

46

6 – Cielo Cray XE6

• Site: DOE/National Nuclear SA/Los Alamos/Sandia

• Familia de sisteme: Cray XE

• Model: Cray XE6

• Procesor: AMD Opteron 8-core 2.4 GHz 9.6GFlops

• OS: Linux

• Arhitectura: MPP

• Aplicatii: Cercetare

• Anul instalarii: 2010

• Numar de core-uri: 142.272

• Rmax(PFlops): 1,111

• Rpeak(PFlops): 1,365

• Consum: 3.980 KW

• MFlops/Watt: 278

• Interconectare: Custom

Page 24: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

24

47

5 – Tsubame 2.0 NEC/HP

• Site: GSIC Center, Tokyo Institute of Technology

• Familia de sisteme: HP Cluster Platform 3000SL

• Model: Cluster Platform SL390s G7

• Procesoare: Intel EM64T Xeon X56xx 2.93GHz / Nvidia GPU

• OS: Linux

• Arhitectura: Cluster

• Aplicatii: Cercetare / Academic

• Anul instalarii: 2010

• Numar de procesoare: 73.278

• Rmax(PFlops): 1,192 (NMax 2.49M)

• Rpeak(PFlops): 2,287

• Consum: 1399 KW • MFlops/Watt: 852

• Interconectarea: Infiniband QDR

48

Tsubame 2.0 – Arhitectura

Page 25: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

25

49

4 – Nebulae

• Site: National Supercomputing Centre in Shenzhen (NSCS)

• Familia de sisteme: Dawning Cluster

• Model: Dawning TC3600 Blade System

• Procesoare: Intel X5650 2.66GHz, NVidia Tesla C2050 GPU

• OS: Linux

• Arhitectura: Cluster

• Aplicatii: Cercetare

• Anul instalarii: 2010

• Numar de core-uri: 120.640

• Rmax(PFlops): 1.271 (NMax 2.36M)

• Rpeak(PFlops): 2.984

• Consum: 2580 KW

• MFlops/Watt: 493

• Interconectarea: Infiniband QDR

50

Nebulae – Aplicatii

Page 26: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

26

51

3 – Jaguar Cray XT5

• Site: Oak Ridge National Laboratory

• Familia de sisteme: Cray XT5-HE

• Model: Cray XT5 QuadCore

• Procesoare: AMD Opteron SixCore 2.6 GHz

• OS: Linux

• Arhitectura: MPP

• Aplicatii: Cercetare

• Anul instalarii: 2009

• Numar de core-uri: 224.162

• Rmax(PFlops): 1.76 (NMax 5.47M)

• Rpeak(PFlops): 2.331

• Consum: 6950 KW

• MFlops/Watt: 253

• Interconectarea: Cray XT4 Internal Interconnect (SeaStar2)

52

Arhitectura Cray XT5

Page 27: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

27

53

Arhitectura Cray XT5

54

Jaguar – Aplicatii (1)

Prima simulare a schimbarii abrupte de clima

Topirea

Groenlandei

Page 28: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

28

55

Jaguar – Aplicatii (2)

Studiul Supernovelor – evolutie asimetrica in functie de masa

56

Jaguar – Aplicatii (3)

Simularea perioadei de injumatatire de la Carbon-14 la Azot-14 (+ electron/neutrino)

Page 29: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

29

57

Jaguar – Aplicatii (4)

De la fotosinteza la combustibil biologic (Etanol): Celuloza (albastru) & Molecule de Lignina

58

Jaguar – Aplicatii (5)

Simulare 3D al microturbulentei in plasma in reactoare cu fuziune – foarte intensive I/O

Page 30: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

30

59

2 – Tianhe-1A TH MPP

• Site: National SuperComputer Center in Tianjin/NUDT

• Familia de sisteme: NUDT Cluster

• Model: NUDT YH MPP

• Procesor: Intel Xeon 5670 2.93Ghz 6C, NVIDIA GPU

• OS: Linux

• Arhitectura: MPP

• Aplicatii: Cercetare

• Anul instalarii: 2010

• Numar de core-uri: 186.368

• Rmax(PFlops): 2,566 (NMax 3,6M)

• Rpeak(PFlops): 4,701

• Consum: 4040 KW

• MFlops/Watt: 635

• Interconectare: Infiniband DDR 4x

60

Tianhe-1A System Characteristics

• Hybrid architecture with heterogeneous processors

– 6144 Quadcore Intel Xeon CPUs and 5120 AMD GPUs

• Compute nodes

– 2560 compute nodes totally with 32GB memory

• Operational node

– 512 nodes with 2 Quadcore Xeon & 32GB memory

• Interconnection subsystem

– Infiniband QDR: 40Gbps bandwidth & MPI latency 1.2us

• I/O storage subsystem:

– Lustre parallel file system in 64 nodes and 1PB

• Compiling system

– Supporting C/C++, Fortran77/90/95, Java, OpenMP and MPI

– Providing a programming framework for hybrid architecture, which supports adaptive task partition and streaming data access

Page 31: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

31

61

Tianhe-1A – Aplicatii

• Resource management subsystem:

– Providing a uniform view of heterogeneous resources in the TH-1

– Support multiple policies for task scheduling and resource allocation

– Supporting multi-level Checkpoint/Restart

• Development kit for parallel programming:

– Integrated Development Environment & Multiple debugging tools

• Applications:

– Petroleum exploration

– Biological medicine research

– Simulation of large aircraft design

– Remote sensing data processing

– Data analyzing of financial engineering

– Simulation of environment research

62

1 – K computer

• Site: RIKEN Advanced Institute for Computational Science

• Model: Fujistu – SPARC64 VIIIfx 2.0GHz

• Procesor: SPARC64 VIIIfx 2.0GHz (8-core)

• OS: Linux

• Arhitectura: Cluster

• Aplicatii: Cercetare

• Anul instalarii: 2011

• Numar de core-uri: 705.024

• Rmax(PFlops): 10,51 (Nmax 11,87M)

• Rpeak(PFlops): 11,28

• Consum: 12.660 KW

• MFlops/Watt: 830

• Interconectare: Custom – Tofu

Page 32: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

32

63

1 – K-Computer SPARC64 VIIIfx Processor

• 8 cores @ 2GHz – SoC design

• Embedded Memory Controller

• Shared 5M L2 Cache

• 45nm – 760M tranzistori

• 128GFlops (peak)

• 64GB/s transfer la memorie

• 58W si racire cu apa

• Set de registri mare

– 192 registri int

– 256 registri fp

• Unitati SIMD

• Software Managed Cache

64

1 – K-Computer 6D Mesh/Torus Tofu Interconnect

Page 33: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

33

65

1 – K-Computer Fujitsu Exabyte File System

• Date foarte multe: 100PB~1EB

• Foarte multi clienti: 100k~1M

• Foarte multe servere: 1k~10k

• Reducerea latentei la fisiere: ~10k ops

66

1 – K-Computer Performance Tuning

4096 de procesoare ca

16 x 16 x 16 celule

Page 34: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

34

67

Cuprins

• Top 500 Supercomputers (http://www.top500.org)

– Prezentare generala

– Benchmark – LINPACK(HPL)

• Top 10

– Info – locatie/furnizor

– Arhitectura

– Performante LINPACK

– OS & Software

– Aplicatii

• Concluzii Top 500

• Cate ceva despre examen: mod de notare, etc…

68

Clienti

Page 35: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

35

69

Arhitectura Sistemelor

70

Familia Procesoarelor

Page 36: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

36

71

Domeniul de Aplicatie

72

Sisteme de Operare

Page 37: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

37

73

Solutia de Interconectare

74

Eficienta Sistemelor vs. Interconnect

Page 38: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

38

75

Producatori

76

Distributia pe Tari

Page 39: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

39

77

MFlops/Watt vs. Procesoare

78

MFlops/Watt vs. Sisteme

Page 40: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

40

79

Evolutia Sistemelor de Calcul

80

Proiectia Evolutiei Viitoare

Page 41: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

41

81

HW Trends

82

Further Trends

Page 42: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

42

83

Cuprins

• Top 500 Supercomputers (http://www.top500.org)

– Prezentare generala

– Benchmark – LINPACK(HPL)

• Top 10

– Motivatie

– Info – locatie/furnizor

– Arhitectura

– Performante LINPACK

– OS & Software

– Aplicatii

• Concluzii Top 500

• Cate ceva despre examen: mod de notare, etc…

84

Examen la ASC

• Examenul consta din doua parti distincte – Partea de teorie – 50min:

• Subiecte din temele prezentate la curs

• Examenul de teorie poate fi sustinut si oral

– Partea de probleme – 30min-45min: • Subiecte similare cu unele din problemele propuse ca teme de laborator

• Nota finala este calculata cu formula: – Teorie Examen*0.40 + Problema Examen*0.10 + Laborator*0.50

• Punctajul fiecarei parti este in intervalul 0..10

• Intrarea in examen si promovarea nu poate avea loc decat daca nota finala de la laborator este strict mai mare ca 2.5 – Restantierii din anii 4/5: minim o tema din 1 si 2 si una din 3 si 4 +

minim 2.5 puncte

• Examen: – CA – xx.05 & xx.06

– CB & CC: 22/31.05 & 01/04.06

Page 43: Arhitectura Sistemelor de Calcul Curs 14 - andrei.clubcisco.roandrei.clubcisco.ro/cursuri/f/f-sym/3asc/ASC - 14 - Top500.pdf · 1 Arhitectura Sistemelor de Calcul – Curs 14 Universitatea

43

85

Bibliografie vs. Cursuri

• Introduction to Parallel Computing: Design & Analysis of Algorithms – Cursurile 6, 8, 11

• The Sourcebook of Parallel Computing – Cursurile 4, 13, 14

• Computer Architecture: A Quantitative Approach – Cursurile 3, 4, 7, 9, 10, 11

• Introduction to Parallel Processing; Algorithms and Architectures – Cursurile 6, 7, 8, 9, 10, 11

• Techniques for Optimizing Applications: High Performance Computing:

– Cursul 4

• Practical Computing on the Cell Broadband Engine – Cursul 5

• www.top500.org, http://www.netlib.org/benchmark/hpl/,

http://icl.cs.utk.edu/hpcc/ – Cursurile 13, 14

• Structura si Arhitectura Sistemelor Numerice – Cursurile 2, 3, 6, 7, 8, 9, 10, 11, 12

86

What Next?

• Q & A?

• Next time:

– Exam…

– Last but not least – feedback forms!


Recommended