...

Slides nadia calcolo

by user

on
Category: Documents
27

views

Report

Comments

Transcript

Slides nadia calcolo
Referaggio calcolo CMS 2014
3 Maggio 2013 - Pisa
1
outline
• Stato generale calcolo CMS
• Stato italiano calcolo CMS
• Evoluzione modello di calcolo
• E soprattutto … Richieste 2014
2
Stato Computing
• Presa dati meglio del previsto:
– Secondi in collisione piu’ delle previsioni, e inoltre
1 mese e mezzo aggiuntivo in pp
3
Trigger rate salito da ~400 Hz a 1200 Hz
Ben oltre le specifiche a 300 Hz (che erano 100
Hz nel Computing TDR)
Totale eventi raccolti 2012: 7.8B (di cui 3.2B
parked)
PU alto ma gestibile; sostanzialmente costante
tutto l’anno (a differenza del 2011)
Reco time vs
lumi
4
MonteCarlo
AODSIM (il data tier per la fisica) -> 13B di eventi
5
Utilizzo in Analisi
• CMS-World:
• Ormai da > 1
anno
preponderan
te (>90%)
attivita’ su
formato dati
ridoto (AOD)
Ormai stabilizzati su 300-400 utenti singoli la settimana
6
Utilizzo risorse T1&T2
T1: at e over pledge a parte
nelle fasi di validazione
prima di reprocessing
T2: over pledge
(effetto principale: forte over
pledge di alcuni siti, US in testa)
7
Reprocessing con release 5_3_X
(legacy per il run 2010-2013)
Reprocessing in
pratica finito.
Fuori dal piano
iniziale: legacy
reprocessing dei
dati 2011 con
release 5_3_X:
partira’ appena
pronte le
calibrazioni
Poi (dopo estate) si
comincia con
simulazioni post
LS1
8
Italia
• T1:
– Pledge 2012 e’ 18.850 kHS06 CPU, 2.8 PB DISCO, 6.6
PB TAPE
• CPU ok, disco ancora non completamente disponibile, tape
ok (da poco)
– PLEDGE 2013 e’ 22.75 kHS06 CPU, 3.38 PB DISCO, 6.5
PB TAPE
• Pledges sono al 1 Aprile, ancora non raggiunte
– Piu’ precisamente: CPU non troppo distanti per overpledge CNAF,
TAPE e’ una diminuzione quindi ~ ok
– Disco siamo ancora lontani, ancora non siamo tecnicamente al
pledge 2012.
9
Utilizzo T1_IT_CNAF
• L’approccio italiano (1 solo T1 per tutti gli esperimenti) permette periodici
overpledge anche grossi
– Vero soprattutto per esperimenti grossi, che sono molto efficienti a occupare
tutte le risorse libere
– In alcuni periodi (estate soprattutto) CMS ha avuto al CNAF periodi a risorse
> 1.5 pledge, in modo costante. Questo si e’ ridimensionato successivamente.
– CMS ha “ripagato” negli scorsi 2 mesi, in cui c’e’ stata poca attivita’ di
reprocessing e ha ridato indietro tempo CPU
# jobs 01-2012/03-2013 ai T1: CNAF migliore dopo FNAL
10
T1_CNAF
Unici buchi di attivita’ Nov-Jan e Jun:
validazione dei reprocessing.
Aprile: fine del reprocessing dei dati 2012
In attesa di partire con il 2011
(legacy reprocessing)
Pledge e’ ~ 2000 (dipende
da come si valutano le CPU,
lascio a Luca definirlo bene); momenti
extra pledge la normalita’ soprattutto
in estate
Running
Pending
Total
11
Tape CNAF:
pledge
12
T2 italiani
• BA, LNL, PI, RM1
– Totale risorse pledge 2012:
• Disco = 3.5PB
• CPU = 45.5kHS06
– 2013: identico
• Accordate solo dismissioni
13
# jobs, 01/2012 – 02/2013
Picture simile a quella dell’anno scorso: US inarrivabili, (cf slides G1, Sett 2012)
Tutti I siti italiani nella meta’ superiore
14
Disco
• I T2 italiani ~ 850 TB l’uno (come il 2012)
– In realta’ disco arrivato dopo 01/04/2012 … Per Pisa in effetti
appena arrivato
• Lo spazio e’ TOTALMENTE ALLOCATO secondo I dettami di
CMS
– Spazio reale occupato
70-95%, ma grossa
variabilita’ annuale
– Non vi e’ spazio aggiuntivo
usabile liberamente
Pisa oggi: 93% occupato
01/04/2012
15
Gruppi di fisica
• Sono ufficielmente supportati 8 gruppi di
fisica:
– Bari: Higgs, SUSY
– LNL: ElectroWeak, Muons
– Pisa: Tracking, Tau & Particle Flow
– Rome: Higgs, Egamma & ECAL
16
I Tier3
• 2012: richiesta ai referees del calcolo di cominciare un programma
di sperimentazione sui T3 (definiti “per funzionalita’”, non per
locazione geografica)
• Idee generali
– Essere ottimizzati per le attivita’ di ricerca di un gruppo INFN – non per
I task MoU
– Attenzione all’attivita’ interattiva
– Accesso a tutti I dati mediante la cloud italiana di Xrootd
– Responsabilizzare gruppo locale di CMS; preparare persone “esperte di
calcolo” a livello italiano
• Per questo li vogliamo distribuiti nelle sezioni
• Prodotto un documento aggiornato sul modello di analisi,
consegnato ai referees 09/2012
• Richiesta = 30kEuro per il 2013
17
… ma
• Documento ben valutato – nessuna vera obiezione
tecnica
• … ma no soldi!
• Proposta referees (statement in G1 di Sept 2012):
destinare ai T3 una frazione delle macchine
dismesse al T1 (piccola frazione delle migliaia di
cores/anno)
– Ci siamo detti d’accordo, ma ancora non si e’ mosso nulla
– Chiediamo adesso che in occasione dell’arrivo delle
macchine nuove al T1 (~1 mese), cominci l’assegnazione
delle macchine dismesse ai siti
• Peraltro esistono gia’ macchine dismesse l’anno prima…
18
Italia in totale (01/2012 - 02/2013)
(occhio, # di jobs, non secondi CPU – e gli workflows che girano a T1 e T2 sono diversi)
19
(nota: T3_IT_Padova a meta’ 2012 e’ stato completamente integrato in T2_IT_LNL; ora sono una cosa sola)
Availability
Terremoto BO
Problema elettrico
Campus di Bari
Riorganizzazione
Disco CNAF
Rottura
controller
disco
Upgrade dCache
Upgrade dCache
Riconfigurazione farm per
passaggio a LHCONE
Transizione dCache -> Storm
20
Highlights 2012-2013
• L’Italia con gli US e’ l’unico
stato ad aver fatto
deployment completo di
Xrootd a T1+T2 (e anche
qualche T3)
• Abbiamo un redirettore
nazionale + ospitiamo quello
Europeo (Bari)
– Erano 2 milestones 2013 ->
100% DONE
21
Anche CNAF in Xrootd!
• Al CNAF e’ stata accesa un porta Xrootd
• Necessaria l’implementazione di patches a Xrootd per proteggere
sistema TAPE del CNAF
– Xrootd non pubblica nel redirettore files solo su TAPE
– In caso di accesso diretto a files su tape, il recall avviene via GEMSS in modo
“pulito”
• Patches ora accettate da Xrootd e in release ufficiale (da testare da
parte nostra)
CNAF + FNAL
unici T1
completamente
abilitati con
Xrootd
22
Milestones 2013
• “termine installazione/configurazione di
Xrootd sui T2 per l'accesso remoto degli utenti
italiani ai dati”
– 1 giugno 2013
– 100% DONE
• “messa in opera del redirettore della cloud di
calcolo italiana”
– 15 dicembre 2013
– 100% DONE
23
Struttura server Xrootd Italia
• BA
– firblibi03.ba.infn.it, gridtutorial8.ba.infn.it
• LNL
– cmsxrd.lnl.infn.it
• PI
– stormgf1.pi.infn.it, stormgf2.pi.infn.it
• RM1
– cmsrm-xrootd01.roma1.infn.it
• Redirettore Europeo
– xrootd.ba.infn.it
• Redirettore italiano
– xrootd-it.ba.infn.it
• CNAF
– ds-202-08-37.cr.cnaf.infn.it
Al redirettore italiano sono
connessi anche PG e TS come T3
24
Esempio di funzionamento
Files letti da jobs a
LNL via Xrootd: 15/04
dcache giu’ per upgrade;
attivita’ di sito non
ferma visto che i jobs
potevano leggere dati in
fallback via Xrootd
Altri tests fatti
• Reprocessing @ CNAF leggendo dati RAW in Xrootd-Fallback da FNAL
• Reprocessing @ T2_IT leggendo MC RAW in Xrootd-Fallback da CNAF
25
Analisi al T1
• L’analisi al T1 per tutti gli utenti italiani e’
stata attivata (mediante un gruppo VOMS
specifico)
Non nel modello di calcolo di
CMS .. Per ora!
Tecnicamente funziona e
funziona bene, pero’ spesso il
T1 e’ cosi’ pieno per le sue
attivita’ MOU che alla fine i
jobs girano prima nei T2 …
Una settimana al CNAF (estate, credo)
26
Networking
• Durante gli ultimi 12 mesi
– T2+T1(extra LHCOPN) sono passati a LHCONE, che
permette ottimizzazione dei flussi di analisi e di
trasferimento dati a matrice completa
– I T2 sono passati a GARR-X
• 10 Gbit/s per BA, RM1, LNL (da tempo)
• 20-e Gbit/s per PI (recentemente)
– Questo rende + sensato l’utilizzo italiano di Xrootd
in modo trasparente
28
Attivita’ di sviluppo SW/CMP
• CRAB (tool di analisi) – Common Solutions con
ATLAS/CERN-IT
– Responsabilita’ di componenti fondamentali
•
•
•
•
H.Riahi, D.Cingottini (PG)
TaskManager
Async Stageout
…
• Computing Evolution
– C. Grandi coordinatore L2, si sta formando un gruppo
anche interessato agli studi Cloud partiti in CCR
• M.Sgaravatto (PD)
29
HLT Cloud
•
Idea: sfruttare farm HLT (~13kCores/~200kHS06) quando la DAQ e’ spenta / ad uso ridotto
–
–
–
–
•
Usato approccio CLOUD (Openstack/KVM con Openvswitch)
–
–
–
–
–
•
Shutdown lunghi (LS1) - ~ 2 anni
Shutdown invernali- ~ 3 mesi
Periodi di machine development ~ 2-5 giorni
Interfill – 1-2 ore
CERNVM come immagine di partenza
CVMFS per il software
Accesso allo storage via Xrootd
Possibilita’ di allocare / deallocare macchine in pochi minuti (non serve reboot dell’host)
Possibilita’ di allocare solo una frazione della farm (per esempio periodi a bassa luminosita’)
Esperienza specifica, ma molte soluzioni riutilizzabili per generico uso di risorse
opportunistiche, visto che
–
–
–
Nessuna dipendenza da sistema operativo
Nessuna dipendenza da topologia di rete (c’e’ un overlay virtualizzato)
Unico servizio che serve davvero un CLOUD service che istanzi le macchine, e una immagine
preconfigurata per parlare con glideinWMS
30
Partecipazione a progetti MIUR
• PRIN08 (BA, MIB, PI, TS)
– “Progetto e sviluppo di un ambiente hardware e software
ottimizzato per l'analisi dei dati dell'esperimento CMS”
– Concluso 09/2012
• PRIN10/11 (… tutti …)
– “Sviluppo di tecnologie per l’ottimizzazione dell’accesso ai dati di
LHC, trasferibili ad altri domini scientifici, mediante l'approccio
del grid e del cloud computing“
– 02/2013 – 01/2016
• Premiale PIDES (di CMS: CNAF, BA, PI) – sottomesso
2013
– “Long-Term Data Preservation and Scientific and Cultural
Heritage”
• PON ReCaS (BA in CMS)
• PON Pegasus (BA in CMS)
31
Sinergie locali
•
–
Storicamente, i centri “proto T2”
sono stati iniziatori di attivita’ GRID
su larga scala nelle Sezioni a partire
dal 2002. La situazione attuale (per
difetto, solo I progetti maggiori)
PI
•
•
•
•
– BA:
• Grosso centro per la fisica teorica
• PON RECAS
• Progetto PIDES per la data
preservation
– LNL
• Sinergie con esperimenti di GIII
• integrazione totale con PD via fibre
dedicate
–
RM1
•
•
•
Partnership industriali (Ferrari, Ducati,
Consorzio +39)
Centro di Calcolo Nazionale di GIV
Progetto PIDES per la data preservation
Progettazione centro di calcolo teorico
SISSA + proposte di collaborazione per
condivisione risorse
Progetto regionale della Sapienza su cloud
Nessuno di questi progetti sarebbe nato
senza CMS come catalizzatore
Nessuno di questi progetti
sopravviverebbe a lungo senza il T2, che
nella quasi totalita’ dei casi
–
–
Ha predisposto le infrastrutture
Fornisce expertise
32
Evolution of Computing Model per
post LS1
1. Perche’ e’ necessario “cambiare” qualcosa
– Nuovo environment da LHC
– Nuove situazioni al contorno (funding etc)
2. Soluzioni:
– Cambiamenti al computing model puro
– Cambiamenti al nostro software
33
Nuovo environment di LHC
25 ns
50 ns
Parametri ….
34
2015
• Target del trigger: mantenere stessa physics capability
sui canali dell’Higgs
• Questo da solo richiede un rate di trigger fra 800Hz e
1.2 kHz – 1 kHz nei conti seguenti (2-4 x wrt standard
300 Hz)
• Inoltre ci sono 2 fattori che complicano ulteriormente
la situazione, a partita’ di numero di eventi raccolti
– Lumi istantanea + alta = reco time x2.5
– Se 25 ns: effetto dovuto al OOTPU al momento da’ un
fattore 2x (tracker soprattutto)
35
Per cui …
• In un mondo ideale, fattore 12x di risorse necessario; chiaramente
impossibile
• Soluzioni messe in campo
1.
Miglioramento dell’efficienza di uso delle risorse: CPU
• Mitigare effetto di trigger rate + alto: usare i T1 anche per una frazione della
prompt reconstruction
– Meno reprocessing standard possibili (solo 1 alla fine dell’anno)
• Usare farm HLT per Prompt Reco
– Gia’ attivo, via HLT Cloud
• Uso opportunistico di risorse non CMS (e non HEP)
2.
Miglioramento dell’efficienza di uso delle risorse: Disco
•
•
•
3.
Remote data access per evitare di dover distribuire piu’ copie dei dati/MC
Data placement intelligente e dinamico
Abbandono totale del formato RECO per AOD
Miglioramento dell’efficienza del nostro SW Computing/Offline
36
Rimane un fattore (~)2 di risorse da
acquisire (su T0 e T1 *)
• Dal 2013 al 2015 …
• Statement di CMS: ottenibile con flat budget 2014+2015, o
tutto su 2015 (dipende da scelte dell’ente finanziatore)
– (ringraziando almeno in parte la legge di Moore …)
• *: I T2 sono molto meno critici, visto che li’
– Una parte dell’attivita’ scala con I dati (AOD dell’anno in corso)
– Una parte scala meno (produzione MC, basta farne meno  )
– Una parte scala con il numero di utenti
37
Altre condizioni al contorno in
cambiamento veloce
• Il paradigma CLOUD sta diventando standard industriale
(molto piu’ di quanto GRID sia mai riuscito a fare)
– Come implementazione, non un unico standard ma una certa
interoperabilita’ per costruzione (per es. EC2 + OpenStack)
• Il supporto economico FPVI-FPVII (EMI, EGI) sta per finire
– Se vogliamo un middleware solo nostro (HEP), dobbiamo
pagarcelo
– Seguire standard industriali dove si puo’, usare soluzioni
comuni a N esperimenti quando non si puo’ (Common
Solutions, CERN/IT)
• In generale, i fondi per il supporto dei siti (da INFN, per
esempio), non sono certo in aumento
38
Altro ….
• Il mondo dell’IT ci sta cambiando intorno (lo fa da
tempo in realta’, ma noi potevamo in un certo modo
“fregarcene”)
– Le reti geografiche sono cresciute molto + delle aspettative
fine 199x (MONARC)
• Modello gerarchico di MONARC non piu’ una necessita’
• La rete puo’ essere usata per ottimizzare accesso a storage (e
comprarne quindi meno)
– Le architetture di CPU stanno cambiando
• Mono -> multi core (da qualche anno)
• Cores x86 -> GPU (da qualche anno, ma non pero noi)
• Cores x86 -> ARM (+ recente)
• In GRID, passaggio ormai concluso fra WMS e pilot
– Meno supporto centrale, piu’ CLOUD friendly
39
In una slide …
• Ridurre differenze
T0/T1/T2:Xrootd:
girareBA,dove
PI, ci
sono risorse
BO + T2
• Disaccoppiare Disco e
CPU nel brokering
• Transizione verso tools di
analisi/produzione
CRAB3: PG
comuni almeno con
ATLAS
• MW GRID
sostanzialmente
congelato da usare nei
nostri siti, ma:
• Essere pronti a sfruttare
opportunita’ impreviste
(slot in centri supercalcolo,
risorse opportunistiche) via
CLOUD BO, PD, BA
– Tanto lavoro da fare: intra e
inter cloud scheduling;
ottimizzazione dell'accesso
allo storage
• .. E additittura volunteer
computing per produzione
MC (completamente da
fare)
40
Attivita’ di miglioramento SW di CMS
1) Solo ottimizzazione
2) Sviluppi in direzioni prevedibili
3) Don’t ask …
41
Fase 1: subito dopo LS1
• Niente che non sia gia’ in buono stato ha
speranza di essere usabile
• Per CMS sostanzialmente: Multicore
Scheduling (vero)
– Vero: Multicore “dei poveri” gia’ usabile oggi
(forking)
– Piani dicono multithreading vero in test finale late
2013, e subito dopo in produzione
42
Vantaggi Multicore #1
Avere controllo completo su una macchina intera invece che su uno “slot” porta
numerosi vantaggi, alcuni attuali altri “possibili”
• Miglior utilizzo delle caches dei processori
• Scheduling di jobs a alta CPU e a alto I/O sulle stessa macchine (ora le
controlliamo “globalmente”)
• Meno memoria utilizzata (perche’ calibrazioni etc sono presenti una volta sola)
-> disegnare algoritmi piu’ efficienti, ma che utilizzino piu’ memoria
• Trend opposto a quello seguito gli scorsi due anni, dove si e’ fatto di tutto
per diminuire la memoria, a volte a scapito delle performance
43
Vantaggi Multicore #2
• Utilizzo di risorse opportunistiche con meno RAM,
ad oggi a noi negate
• Il fatto che lo scheduling non e’ piu’ per core, ma
per “macchina” diminuisce di un fattore ~ 10 il
carico dell’infrastruttura di computing
• # di jobs da gestire
• # di slots da gestire
• # di files temporanei da gestire
• In fase finale di test Autunno 2013 (perche’ ESISTE gia’)
44
Fase 2 (~2018)
• Qui si puo’ fare R&D vera sull’architettura
• Tre aspetti in gioco
1. Massively multicore, ma sempre x86: XEON Phi
2. Massively multicore, architettura nuova:
GPU+CUDA/OpenCL
3. Riduzione dei consumi sia diretti sia di
condizionamento: ARMv8_64
45
1. XEON Phi
Interessante per usi “tipo coprocessore”: un
core Intel standard esegue ricostruzione, e
passa la parte meglio parallelizzabile
(tracking) al Phi
Non necessita di nuovo codice: architettura di
host e guest e’ la stessa
E’ una buona palestra per massively multicore
Chi lo fa ? Al momento ITALIA in pole position, con
• Francesco Giacomini + Matteo Manzali hanno cominciato una collaborazione con CMS per
studiare il boost di particolari algoritmi (inizio probabile e’ il seedinf nei Pixel), usando il Phi
del CNAF
• Pisa ha altri 2 Phi, collaborazione in partenza con informatici per capire se e’ possibile
collaborazione
• Recentemente il gruppo HLT/CERN ha manifestato interesse ... Non credo siano ancora 46
partite attivita’ vere e proprie
2. GPU
• Questa e’ una soluzione molto performante in un
piccolo subset di algoritmi (quelli sostanzialmente
vettoriali)
• E’ anche la piu’ complicata dal punto di vista degli
skill necessari; non permette un facile riuso di
codice (deve essere riprogettato) – CUDA,
OpenCL, etc
• In CMS si e’ pensato a utilizzi solo a livello di
trigger, ma non mi pare si stia davvero
muovendo nulla
47
3. ARM (v8, 64 bit)
• Interessante per 2 motivi:
1. Consumo!
1. Un core i7 consuma 10-20 W (e in media altri ~4 per
raffreddarlo)
2. Un core ARM e’ 1-1.5 W
2. E’ un mercato con molta concorrenza (prezzi bassi,
aumento di performance maggiore anno su anno)
– La ricompilazione di CMSSW su ARM e’ pressoche’
conclusa
– Per ora e’ solo un test preliminare (ARMv8 non esiste
ancora) ma non e’ detto che in 6-7 anni il mercato
e/o I costi infrastrutturali non ci spingano in questa
direzione
Per il momento
attivita’
CERN/OpenLAB.
Sistema di sviluppo
equivalente arrivato a
Pisa la settimana
scorsa; interesse da
parte degli
informatici per
benchmarking / 48
misura di
49
Ma prima: stato acquisti 2013
• CPU: AQ copre le necessita’ dei siti
– Tutto ok, opzione non ancora esercitata dai siti
• Disco: come al solito in ordine +/- sparso
– Pisa continua con DDN (gia’ arrivato!)
– Possibile sinergia ALICE+CMS per BA+LNL
– Roma da sola (piccole cifre…)
50
Richieste 2014
C-RSG
04/2013
NB: in realta’ in alcuni casi in Italia abbiamo + del pledge 2013; sostanzialmente
perche’ assegnazioni CSN1 erano avvenute prima dello scrutiny
REBUS fa fede:
51
REBUS
T1
T2
52
Tier1
Al netto delle dismissioni (vedi Luca) unico
aumento sono 650 TB di TAPE
53
TIER2
“mancano” 5.2 kHS06
54
Dismissioni T2
• (T1 segue altra strada)
• TOTALE e’
– 23.6 kHS06 (caso limite e’ Pisa, TUTTE le CPU
vanno fuori manutenzione)
– 440 TBN
Dismissioni pure =
390kEur
(se 10 Eur/HS06 + 350 Eur/TBN)
55
Richieste 2014 - summary
• T1
– Dismissioni come decise dal centro
– 650 TB di Tape
• T2
– Aumento di 5.2 kHS06
– Dismissioni pari a 23.6 kHS06 e 440
TBN
– (+ server / networking come share
solito)
(se 10 Eur/HS06 + 350 Eur/TBN)
56
Una nota: manutenzioni/emergenze
• Sett ‘12:
• “…il supporto per il
mantenimento ordinario delle
infrastutture e' a carico delle
sezioni/laboratori che ospitano i
Tier-2 mentre quello della
infrastuttura straordinaria (tipo
UPS) va a carico della CCR. Se i
direttori non hanno soldi …
presentino il problema al
direttivo e li saranno discusse le
possibili soluzioni.”
CCR: ok! Problemi UPS a BA
e RM1, CCR ha finanziato
tutto/in parte la cifra per
tornare operativi!
Man.Ordinaria: non ok!
Richiesta da direttore PI per
contributo manutenzioni
non presa in considerazione
In pratica, NON abbiamo una soluzione per le manutenzioni
57
ordinarie dei centri; che si fa??????
Dismissioni 2015 - T2
• Prima stima al momento
• Cosa ci aspettiamo?
– Nel corso di 3 anni dismissione di tutte le CPU
– Nel corso di 3 anni dismissione di 60-75% del disco
• Per il disco dipende totalmente dalla fase
Per
esempio,
per Pisa
aspettatevi
botta l’anno
dopo
58
Summary delle richieste
(+ usual share di networking e server)
59
ReCaS
• Da slides di GP, il max che si puo’ ottenere e’
1.
2.
3.
4.
Delta 2014-2013 nazionale (pochissima roba)
Dismissioni Bari 2013
Parte delle dismissioni Bari 2015
Molto poco del delta 2015-2014
• Per cui:
1. 2015-2015 forte (!) richiesta di mantenere I T2 not
ReCas operativi (-> dismissioni accordate)
2. 2015: aumento di risorse ai T2 not ReCaS (naturale
visto il punto 4 sopra)
61
62
Fly UP