Indagine sul Calcolo HPC - Direzione Scientifica Unità VI - ICT
by user
Comments
Transcript
Indagine sul Calcolo HPC - Direzione Scientifica Unità VI - ICT
Indagine sul Calcolo HPC INAF – Direzione Scientifica Unita VI ICT Giuliano Taffoni – Ugo Becciani Unita’ VI ICT • Unita’ della Direzione Scientifica (08/2013) • Responsabile R. Smareglia • Attivita’…tra le altre: – Sviluppo ICT connesso all’attivita’ scientifica dell’ente – Servizio all’utenza tecnico/scientifica – Relazioni esterne Sviluppo ICT • Infrastrutture di calcolo – High performance computing – High throughput computing – Cloud/grid infrastructures • Archivi scientifici • Software di riduzione e analisi dati Cosa fare? Individuare le necessita’ dell’ente Come farlo? • Questionari su aspetti diversi legati alle attivita’ della commissione calcolo e del gruppo GCSI Indagine interna all’INAF • Autunno 2013 – Software scientifico (Bianca Garilli) – Necessita’ di calcolo – Scelte e necessita’ sistemistiche delle strutture – Archivi e cataloghi – Possibili sviluppi futuri Indagine sul calcolo Cosa cercavamo di capire? • • • • • • Risorse calcolo e storage Come sono finaziate le risorse Risorse per progetti specifici Coinvolgimento dei ricercatori/tecnologi Quali tipi di codice sono sviluppati Quali sono le prospettive per il futuro Quali sono stati i risultati? Analisi Generale Utilizzano cluster locali del mio istituto Utilizzano cluster locali di altri istituti Utilizzano sistemi distribuiti Utilizzano sistemi di grandi dimensioni (IBM BGQ – Cluster con oltre 1000 CPU) 38% 33% 30% 20% I programmi di calcolo hanno bisogno di grandi dimensioni di data storage ? Richiesti 2,660 TB Chi sono i finaziatori? Le ricerche che prevedono calcolo sono condotte in ambito di progetti finanziati da Nessuno INAF ASI Altri istituti di Ricerca (Università, CNR, ecc) MIUR Unione Europea Collaborazioni internazionali 20% 40% 20% 5% 18% 15% 30% Punto di forza: capacità generalizzata di ottenere finanziamenti ( 80%) Punto di debolezza: solo il 15% sono risorse UE e 70% risorse INAF e da Collaborazioni E ancora… • Esistono dei sistemi di calcolo dedicati a Progetti specifici ? SI (60%) • Quale futuro? Mainframe (> 1000 CPU/core) Acceleratori Grafici (GPUs) Cloud Computing Cloud Data Calcolo distribuito (grid) 30% 20% 5% 20% 15% Questioni aperte • Riteniamo di avere sufficienti risorse di calcolo HPC per gli obiettivi scientifici/tecnologici ? • Partecipiamo a call di programmi grant per l’assegnazione di risorse di calcolo? • Quali politiche adottare per HPC e HTC? Pero’…. • Siamo bravi: 159 Milioni di ore calcolo equivalenti per CPU/core BGQ Cineca assegnate nel 2013 per programmi di ricerca – 53 Milioni OATO, 50 Milioni OAPA, 20 Milioni OATS – OATO+OACT hanno una assegnazione straordinaria a carico INAF/ASI per 70 Milioni di ore Nuove indagine • Approfondire l’indagine conoscitiva • Focalizzare su aspetti specifici – HPC – HTC – Cloud Indagine su HPC • Quali obiettivi? Individuare necessita’ per il triennio. – Tipologia di risorse (produzione, test, sviluppo) – Necessita’ di storage – Difficolta’ incontrate nell’uso delle risorse utilizzate – Tipo di supporto tecnico se richiesto – Quali prospettive per il triennio? Strutture interessate • 9 Strutture INAF hanno espresso interesse per i programmi HPC – – – – – – – – – OA Bologna OA Roma OA Trieste IRA Bologna OA Capodimonte Napoli OA Torino OA Catania OA Arcetri Firenze OA Palermo INAF HPC NO HPC Programmi di ricerca - Complessivamente >= 16 Programmi di ricerca già attivi e che continueranno nel prossimo triennio - Si segnalano OAPA e OACT hanno presentato 3 programmi differenti in ciascuna struttura - OATS hanno presentato un report integrato con almeno 3 programmi differenti - OACT in un programma (GAIA) collabora con OA Torino ed esiste specifica convenzione (MoU) con il Cineca per il programma Gaia Quali codici? • Simulazioni idrodinamiche – Ammaissi globulari, galassie, strutture su larga scala • • • • First stars, stelle e oggetti protostellari Dinamica dell’atmosfera solare Magneto-idrodinamica dei plasmi Optical turbulence modelling for Extremely Large Telescopes Dove • • • • • • • CINECA (BGQ, PLX, cluster) Eurora-CINECA ECMWF (CRAY XT5) Univ. Tennessee (CRAY TX5) DESI (Hungary) Marenostrum (BSC) Cluster locali OA Bologna Programma di ricerca Simulazioni idrodinamiche della formazione ed arricchimento chimico di proto-ammassi globulari e di galassie nane ultra-deboli PI: F. Calura - Numero di Persone : 2 Pubblicazioni nell’ultimo triennio 21 e Conferenze 5 Sistema utilizzato: Cluster Paradigma MPI Risorse utilizzate: 100,000 ore su Eurora-CINECA Richieste: 1000 CPU/core con 1 Milione di ore Spazio disco > 1 TB OA Roma Programma di ricerca FIRST: the first stars and galaxies/ERC-.‐Starting Grant project (GA306476) PI: R. Schneider - Numero di Persone : 14 Pubblicazione nell’ultimo triennio 15 e Conferenze 2 Sistema utilizzato: Cluster Paradigma MPI+OMP+GPU Risorse utilizzate: Intel+IBM cluster Richieste: 1024 CPU/core con 80 Milioni di ore Spazio disco 100 TB OA Trieste Programmi di ricerca Simulazioni numeriche idrodinamiche di galassie, clusters e volumi cosmologici PIs: S. Borgani, P. Monaco, G. Murante - Numero di Persone : 18 - Pubblicazione nell’ultimo triennio 39 e Conferenze 35 - Sistema utilizzato: Cluster Paradigma MPI+OMP - Risorse utilizzate: 13 Milioni di ore in BGQ e Cluster Cineca, 4 Milioni di ore Risorse in Ungheria (SP6) - Richieste: 16 Milioni di ore Spazio disco 100 TB. Evitare BGQ - Difficoltà: lunghe code su BGQ (parzialmente inutilizzabile) IRA Bologna Programma di ricerca Non-thermal components in galaxy clusters, theoretical and observational studies PI: G. Brunetti - Numero di Persone : 6 Pubblicazione nell’ultimo triennio 9 e Conferenze 30 Sistema utilizzato: Cluster Paradigma MPI+OMP Risorse utilizzate: 3 Milioni di ore inBGQ Cineca Richieste: 50 Milioni di ore Spazio disco 150 TB Difficoltà: lunghe code su BGQ OA Capodimonte Napoli Programma di ricerca CO5BOLD Simulations: dinamica dell’atmosfera solare PI: T. Starus - Numero di Persone : 1 - Pubblicazione nell’ultimo triennio Non Segnalate e Conferenze Non Segnalate - Sistema utilizzato: Non Segnalate Paradigma OMP - Risorse utilizzate: Non Segnalate - Richieste: 100,000 ore su Shared Memory Spazio disco 10 TB - Difficoltà: OA Torino Programma di ricerca Simulazioni Magneto‐Idrodinamiche di plasmi astrofisici: sviluppo di algoritmi ed applicazioni PI: G. Bodo - Numero di Persone : 5 Pubblicazione nell’ultimo triennio 18 e Conferenze 7 Sistema utilizzato: Cluster Paradigma MPI Risorse utilizzate: 33 Milioni di ore in BGQ Cineca Richieste: CRAY XT5 Univ. Tennessee 50 Milioni di ore Spazio disco 100 TB - Difficoltà: lunghe code su BGQ OA Catania e Torino Programma di ricerca Solver Gaia AVU-GSR CU3 PI: U. Becciani - Numero di Persone : 3 - Pubblicazione nell’ultimo triennio 3 e Conferenze 5 - Sistema utilizzato: BGQ Cineca+ Cluster Locali Paradigma MPI+OMP - Risorse utilizzate: 3 Milioni di ore in BGQ Cineca - Richieste: 70 Milioni di ore BGQ Cineca MOU-INAF Cineca: costo complessivo di 25 Keuro/anno. Durata 8 anni 15 TB - Difficoltà: lunghe code su BGQ in fase di test. Ma ottenuti Run a code riservate in fase di produzione e certezza delle risorse OA Catania Programma di ricerca Simulazioni MHD PI: A. Bonanno - Numero di Persone : 1 Pubblicazione nell’ultimo triennio 6 e Conferenze 4 Sistema utilizzato: Paradigma MPI + OMP Risorse utilizzate: Non dichiarate Richieste: 64 nodi con 32 GB + 8 GPU e Spazio disco di 1 TB Difficoltà: OA Catania Programma di ricerca Simulazioni MHD PI: V. Antonuccio - Numero di Persone : 2 Pubblicazione nell’ultimo triennio 7 e Conferenze 2 Sistema utilizzato: Paradigma MPI + OMP Risorse utilizzate: PLX Cineca 100,000 ore Richieste: 7.5 Milioni di ore CPU/core 10 TB Difficoltà: OA Arcetri (FI) Programma di ricerca Special Project ECMWF: Optical turbulence modelling for Extremely Large Telescopes (SPITFOT) PI: E. Masciadri - Numero di Persone : 3 Pubblicazione nell’ultimo triennio 9 e Conferenze 15 Sistema utilizzato: Paradigma MPI Risorse utilizzate: 60 More (SBU) su Cray X30 o Power 7 presso ECMWF - Richieste: 60 More (SBU) su Cray X30 o Power 7 presso ECMWF Spazio disco 1 TB - Difficoltà: porting da IBM a CRAY OA Palermo Programma di ricerca Dinamica delle strutture magnetiche della corona solare PI: F. Reale - Numero di Persone : 5 Pubblicazione nell’ultimo triennio 4 e Conferenze 5 Sistema utilizzato: Paradigma MPI Risorse utilizzate: Cluster + BGQ Cineca 36 Milioni di ore Richieste: 100 Milioni di ore BGQ Cineca Spazio disco 100 TB - Difficoltà: OA Palermo Programma di ricerca Oggetti stellari giovani e getti protostellari. PI: S. Orlando - Numero di Persone : 9 Pubblicazione nell’ultimo triennio 4 e Conferenze 14 Sistema utilizzato: Paradigma MPI Risorse utilizzate: Cluster + BGQ Cineca 4.5 Milioni di ore Richieste: 50 Milioni di ore BGQ Cineca Spazio disco 40 TB - Difficoltà: OA Palermo Programma di ricerca Esplosioni di novae, resti di supernova, e meccanismi di accelerazione dei raggi cosmici. PI: S. Orlando - Numero di Persone : 5 Pubblicazione nell’ultimo triennio 6 e Conferenze 7 Sistema utilizzato: Paradigma MPI Risorse utilizzate: Cluster + BGQ Cineca 30 Milioni di ore Richieste: 100 Milioni di ore BGQ Cineca Spazio disco 80 TB - Difficoltà: Quale coinvolgimento? • Circa 70 unità di personale (staff e non staff) • 143 pubblicazioni nel triennio • Partecipaizone a congressi 129 INAF TOTALE HPC Conclusioni • Ore di calcolo usate nel triennio 255 Milioni di ore (CPU/core) • Risorse di calcolo stimate (deisderata) per il prossimo triennio 550 Milioni di ore (CPU/core) 710 TB Spazio disco • Risorse utilizzate 68% Cluster e IBM BGQ al Cineca (11 programmi su 16) • Paradigma dei codici più usati: MPI 55% MPI+OMP 45% Problemi incontrati • Difficolta’ principale emersa: Uso del sistema IBM BlueGeneQ al Cineca Code intasate e lunghe attese Ingegnerizzazione del sistema: piccoli nodi che implicano una reingegnerizzazione del codice • Supporto richiesto: – 65% richiede supporto per il porting su GPUs per uno stimato impegno di 3 FTE • Ciò implica che anche la nostra comunità si prepara all’HPC della nuova generazione e necessita uno specifico supporto. Problematiche aperte • Accesso a risorse piccole (T2) – Test – Sviluppo – Sistemi di pronta risposta (qsub ORA) • (cluster INAF…risorse interne) • Progetti Euclid. SKA. Risorse future Grazie per l’attenzione