...

Slides - Agenda

by user

on
Category: Documents
29

views

Report

Comments

Transcript

Slides - Agenda
Referaggio calcolo CMS 2014
CSN1 - 18 Settembre 2013
Tommaso Boccali
(INFN Pisa)
1
Outline
• Stato generale calcolo CMS
• Stato italiano calcolo CMS
• Evoluzione modello di calcolo
• E soprattutto … Richieste 2014
2
Stato Computing
• Presa dati (pp) meglio del previsto:
– Secondi in collisione piu’ delle previsioni, e inoltre
1 mese e mezzo aggiuntivo in pp
+25% rispetto al
planning di inizio 2012
3
Trigger rate salito da ~400 Hz a 1200 Hz
Ben oltre le specifiche a 300 Hz (che erano 100
Hz nel Computing TDR)
Totale eventi raccolti 2012: 7.8B (di cui 3.2B
parked)
PU alto ma gestibile; sostanzialmente costante
tutto l’anno (a differenza del 2011)
Reco time vs
lumi
4
MonteCarlo 2012-13
AODSIM (il data
tier per la fisica):)
: 13B+4B di
eventi prodotti
5
Utilizzo in Analisi
• CMS-World:
• Ormai da > 1
anno
preponderan
te (>90%)
attivita’ su
formato dati
ridoto (AOD)
Stabilizzati su 300-400 utenti singoli la settimana
6
Utilizzo risorse T1&T2
T1: buco dovuto alla
preparazione dei
reprocessing; in risalita
T2: calo ultimi mesi in attesa
del nuovo reprocessing 2011
+ dei nuovi samples per
post-LS1
7
Reprocessing con release 5_3_X
(legacy per il run 2010-2013)
Reprocessing in
pratica finito.
2013
E poi …
8
2011 final rereco
9
Italia!
Interventi elettrici Campus di Bari
Riorganizzazione disco per dare pledge 2012
Rotture
multiple
controller
disco
10
Italia
• T1:
– Pledge 2012 e’ 18.85 kHS06 CPU, 2.8 PB DISCO,
6.6 PB TAPE
• Raggiunto fine 2012
– PLEDGE 2013 e’ 22.75 kHS06 CPU, 3.38 PB DISCO,
6.5 PB TAPE
• Raggiunto ~ Agosto
– Anzi CNAF ci ha permesso a Agosto/13 un overpledge di ~500
TB per effettuare la separazione TAPE/Disk (vedere dopo)
11
Utilizzo T1_IT_CNAF
• L’approccio italiano (1 solo T1 per tutti gli esperimenti) permette periodici
overpledge anche grossi
– Vero soprattutto per esperimenti grossi, che sono molto efficienti a occupare
tutte le risorse libere
– CMS ha avuto periodi di overpledge e di underpledge, bilanciamento
possibile solo grazie alla natura shared del sito
# jobs 09-2012/09-2013 ai T1: CNAF migliore dopo FNAL (consolidato dato 2012)
12
Utilizzo CNAF per CMS
CPU:
sostanzialmente in
pledge (4 mesi
under, 8 mesi over)
TAPE:
saturazione del
pledge raggiunta.
Attivita’ NON
bloccata grazie alla
separazione
tape/disk (dopo…)
13
News dal Tier1
• Attivita’ di analisi per utenti Italiani attiva fin
da meta’ 2012
• Separazione dello storage Tier1 in Tape e Disk
• In grado di aprire all’analisi di tutti gli Utenti di
CMS (grazie a tape/disk separation)
14
Separazione DISK/TAPE
• Spazio TAPE con frontend di disco “piccolo” (~350
TB, 10% del pledge) sostanzialmente dedicato
solo ai dati da tenere in custodial
• Tutto il resto del disco (~ 3 PB) come area
svincolata dal disco
– Permette un utilizzo caotico (in analisi, per esempio)
senza dover temere sovraccarichi della parte TAPE
– Svincola il T1 in modo netto fra parte di data
custodiality e parte di processing (produzione +
analisi)
15
Un minimo di dettaglio
• La separazione e’ stata decisa in CMS qualche mese fa
• A tutt’oggi CNAF risulta il PRIMO Tier1 ad aver
completato la transizione (RAL ha cominciato molto
prima ma ancora non ha finito)
• Operazione effettuata interamente ad Agosto (dal 5 al
19)
– … per chi dice che e’ impossibile lavorare ad Agosto in
Italia …
– Un grosso grazie al personale T1 e al supporto CMS!
– 1.1 PB di dati richiamati da TAPE e spostati su parte DISK in
~ 10 giorni
– Transizione di tutta la farm effettuata il 20 agosto
16
T2 italiani
• BA, LNL, PI, RM1
– Totale risorse pledge 2012:
• Disco = 3.5PB
• CPU = 45.5kHS06
– 2013: identico
• Accordate solo dismissioni
17
# jobs, 01/2012 – 09/2013
Come # di jobs successful Italia 1o posto (di un epsilon…)
Picture simile a quella dell’anno scorso: US inarrivabili, (cf slides G1, Sett 2012)
Italia nel gruppo che segue FNAL
18
E all’interno dell’Italia (T2 only)
# jobs, 01/2012 – 09/2013
Nota usuale sui rossi:
• I “rosa” sono certamente problemi di workflow (utenti o team di produzione)
• I rossi intensi sono problemi dal lato GRID (possono essere sia di sito sia di infrastruttura)
• I rossi scuri sono probabilmente problemi di sito, ma anche di workflow
• Per esempio se viene mandato un job che richiede una versione del sw che non c’e’
• Una *mia* stima dei problemi veri di sito da’ numeri inferiori al 5%; il resto sono errori
operazionali
19
Disco
• I T2 italiani ~ 900 TB l’uno (come il 2012)
• Lo spazio e’ TOTALMENTE ALLOCATO secondo I dettami di
CMS
– Spazio reale occupato 70-95%, ma grossa
variabilita’ annuale
– Non vi e’ spazio aggiuntivo
usabile liberamente
Numeri 2012,
2013 +5%
Esempio di Pisa: fino a 10 gg fa pieno al 98%;
refill di emergenza attuato
20
Gruppi di fisica
• Sono ufficialmente supportati 8 gruppi di
fisica:
– Bari: Higgs, SUSY
– LNL: ElectroWeak, Muons
– Pisa: Tracking, Tau & Particle Flow
– Rome: Higgs, Egamma & ECAL
– Nulla di nuovo da anni….
21
Italia in totale (01/2012 - 09/2013)
(occhio, # di jobs, non secondi CPU – e gli workflows che girano a T1 e T2 sono diversi)
22
(nota: T3_IT_Padova a meta’ 2012 e’ stato completamente integrato in T2_IT_LNL; ora sono una cosa sola)
Highlights 2013
• L’Italia con gli US e’ l’unico
stato ad aver fatto
deployment completo di
Xrootd a T1+T2 (e anche
qualche T3)
• Abbiamo un redirettore
nazionale + ospitiamo quello
Europeo (Bari)
– Erano 2 milestones 2013 ->
100% DONE
23
Traffico Xrootd di CMS a livello mondiale …
24
… ed Europeo
Italia assolutamente centrale a livello Europeo
25
Anche CNAF in Xrootd!
• Al CNAF sono state accese 4 porte Xrootd
• Necessaria l’implementazione di patches a Xrootd per proteggere
sistema TAPE del CNAF
– Xrootd non pubblica nel redirettore files solo su TAPE
– In caso di accesso diretto a files su tape, il recall avviene via GEMSS in modo
“pulito”
– Soluzione sviluppata in Italia
• Patches ora accettate da Xrootd e in release ufficiale
CNAF + FNAL unici T1
completamente abilitati con
accesso Xrootd per lungo
tempo
26
Milestones 2013
• “termine installazione/configurazione di Xrootd sui T2 per l'accesso
remoto degli utenti italiani ai dati”
– 1 giugno 2013
– 100% DONE
• Tutta l’italia e’ nel redirettore di Europeo CMS (anche T1 e qualche T3)
• “messa in opera del redirettore della cloud di calcolo italiana”
– 15 dicembre 2013
– 100% DONE
• Redirettore della cloud italiana xrootd-it.ba.infn.it operativo
• (“definizione delle procedure di utilizzo del T1 per analisi e
disponibilita' dello spazio disco necessario”
– Done Luglio:
– )
27
https://twiki.cern.ch/twiki/bin/viewauth/CMS/T1ItalyForUsers
28
Esempio di funzionamento di Xrootd
15/04: Storage di
Legnaro down per
upgrade di dCache.
Attivita’ di sito NON
ferma perche’ I jobs
potevano accedere ai
dati via Xrootd.
Altri tests fatti
• Reprocessing @ CNAF leggendo dati RAW in Xrootd-Fallback da FNAL
• Reprocessing @ T2_IT leggendo MC RAW in Xrootd-Fallback da CNAF
• (sempre piu’ vicini ad un modello full mesh …)
29
Analisi al T1
• L’analisi al T1 per tutti gli utenti italiani e’
stata attivata (mediante un gruppo VOMS
specifico)
Prossimo step attuabile grazie
a tape/disk separation:
attivarla per tutti gli utenti
CMS
Una settimana al CNAF (estate, credo)
30
Networking
• Durante gli ultimi 12 mesi
– T2+T1 (extra LHCOPN) sono passati a LHCONE, che
permette ottimizzazione dei flussi di analisi e di
trasferimento dati a matrice completa
– I T2 sono passati a GARR-X
• 10 Gbit/s per BA, RM1, LNL (2012)
• 20-e Gbit/s per PI (inizio 2013)
– Questo rende + efficace l’utilizzo italiano di Xrootd
in modo trasparente
31
Attivita’ di sviluppo SW/CMP
• CRAB (tool di analisi) – Common Solutions con ATLAS/CERN-IT
– Responsabilita’ di componenti fondamentali
•
•
•
•
H.Riahi, D.Cingottini (PG)
TaskManager
Async Stage Out
…
– Alpha e Beta Testing, test di scala
• Pisa, Torino, Bologna, Padova
• Computing Evolution
– C. Grandi coordinatore L2, si sta formando un gruppo anche
interessato agli studi Cloud partiti in CCR
• M.Sgaravatto (PD): HLT Cloud, General CMS-Cloud Interface, Gestione delle
immagini virtuali
• BA: could storage, Testbed per Cloud IaaS basata su OpenStack per il progetto
PON-PRISMA
• PG
• …
32
HLT Cloud
•
Idea: sfruttare farm HLT (~13kCores/~200kHS06) quando la DAQ e’ spenta / ad uso ridotto
–
–
–
–
•
Usato approccio CLOUD (Openstack/KVM con Openvswitch)
–
–
–
•
Shutdown lunghi (LS1) - ~ 2 anni
Shutdown invernali- ~ 3 mesi
Periodi di machine development ~ 2-5 giorni
Interfill – 1-2 ore
Accesso allo storage via Xrootd
Possibilita’ di allocare / deallocare macchine in pochi minuti (non serve reboot dell’host)
Possibilita’ di allocare solo una frazione della farm (per esempio periodi a bassa luminosita’)
Esperienza specifica, ma molte soluzioni riutilizzabili per generico uso di risorse
opportunistiche, visto che
–
–
–
Nessuna dipendenza da sistema operativo
Nessuna dipendenza da topologia di rete (c’e’ un overlay virtualizzato)
Unico servizio che serve davvero un CLOUD service che istanzi le macchine, e una immagine
preconfigurata per parlare con glideinWMS
33
HLT cloud 2013 – in produzione!
• _AI: Agile Infrastructure CERN
• (non risporse CMS)
• 170j jobs
• _HLT: la farm HLT a P5
• 480k Jobs processati
• Success rate comparabile
con T1/T2
• Picchi fino a 6k jobs running
34
Partecipazione a progetti MIUR
• PRIN08 (BA, MIB, PI, TS)
– “Progetto e sviluppo di un ambiente hardware e software
ottimizzato per l'analisi dei dati dell'esperimento CMS”
– Concluso 09/2012
• PRIN10/11 (… tutti …)
– “Sviluppo di tecnologie per l’ottimizzazione dell’accesso ai dati di
LHC, trasferibili ad altri domini scientifici, mediante l'approccio
del grid e del cloud computing“
– 02/2013 – 01/2016
• Premiale PIDES (di CMS: CNAF, BA, PI) – approvato
settembre 2013
– “Long-Term Data Preservation and Scientific and Cultural
Heritage”
• PON ReCaS (BA in CMS)
• PON Pegasus (BA in CMS)
35
Sinergie locali
•
–
Storicamente, i centri “proto
T2”(2004+) sono stati iniziatori di
attivita’ GRID su larga scala nelle
Sezioni a partire dal 2002. La
situazione attuale (per difetto, solo I
progetti maggiori)
PI
•
•
•
•
Partnership industriali (Ferrari, Ducati,
Consorzio +39)
Centro di Calcolo Nazionale di GIV
Progetto PIDES per la data preservation
Progettazione centro di calcolo teorico
SISSA + proposte di collaborazione per
condivisione risorse
– BA:
• Grosso centro per la fisica teorica
• PON RECAS
• Progetto PIDES per la data
preservation
–
•
•
– LNL
• Sinergie con esperimenti di GIII
• integrazione totale con PD via fibre
dedicate
RM1
•
Progetto regionale della Sapienza su cloud
Nessuno di questi progetti sarebbe nato
senza CMS come catalizzatore
Nessuno di questi progetti
sopravviverebbe a lungo senza il T2, che
nella quasi totalita’ dei casi
–
–
Ha predisposto le infrastrutture
Fornisce expertise
36
Evolution of Computing Model per
post LS1
1. Perche’ e’ necessario “cambiare” qualcosa
– Nuovo environment da LHC
– Nuove situazioni al contorno (funding etc)
2. Soluzioni:
– Cambiamenti al computing model puro
– Cambiamenti al nostro software
37
Nuovo environment di LHC x il 2015
Parametri ….
(25 ns – 50 ns)
38
2015
• Target del trigger: mantenere stessa physics capability
sui canali dell’Higgs
• Questo da solo richiede un rate di trigger fra 800Hz e
1.2 kHz – 1 kHz nei conti seguenti (2.5 x wrt standard
300 Hz)
• Inoltre ci sono 2 fattori che complicano ulteriormente
la situazione, a partita’ di numero di eventi raccolti
– Lumi istantanea + alta = reco time x2.5
– Out of Time PU (non lo considero nel seguito, siamo
ragionevolmente convinti di poterci proteggere)
39
Per cui …
• In un mondo ideale, fattore 6x di risorse necessario 2015-2013;
chiaramente impossibile
• Soluzioni messe in campo
1.
Miglioramento dell’efficienza di uso delle risorse: CPU
• Mitigare effetto di trigger rate + alto: usare i T1 anche per una frazione della prompt
reconstruction
– Meno reprocessing completi possibili (solo 1 alla fine dell’anno)
• Usare farm HLT per Prompt Reco
– Gia’ attivo, via HLT Cloud
• Uso opportunistico di risorse non CMS (e non HEP)
– Una parte della produzione MC 2012 girata su UCSD SuperComputing Centre
• Ridurre il numero di eventi simulati
2.
Miglioramento dell’efficienza di uso delle risorse: Disco
•
•
•
3.
Remote data access per evitare di dover distribuire piu’ copie dei dati/MC
Data placement intelligente e dinamico
Abbandono totale del formato RECO per AOD
Miglioramento dell’efficienza del nostro SW Computing/Offline
40
Rimane un fattore 2 di risorse da
acquisire (su T0 e T1 *)
• Dal 2013 al 2015 …
• Statement di CMS: ottenibile con flat budget 2014+2015,
o tutto su 2015 (dipende da scelte dell’ente finanziatore)
• *: I T2 sono molto meno critici, visto che li’
– Una parte dell’attivita’ scala con I dati (AOD dell’anno in
corso)
– Una parte scala meno (produzione MC, basta farne meno 
)
– Una parte scala con il numero di utenti
41
Altre condizioni al contorno in
cambiamento veloce
• Il paradigma CLOUD sta diventando standard industriale
(molto piu’ di quanto GRID sia mai riuscito a fare)
– Come implementazione, non un unico standard ma una certa
interoperabilita’ per costruzione (per es. EC2 + OpenStack)
• Il supporto economico FPVI-FPVII (EMI, EGI) sta per finire
– Se vogliamo un middleware solo nostro (HEP), dobbiamo
pagarcelo
– Seguire standard industriali dove si puo’, usare soluzioni
comuni a N esperimenti quando non si puo’ (Common
Solutions, CERN/IT)
• In generale, i fondi per il supporto dei siti (da INFN, per
esempio), non sono certo in aumento
42
Altro ….
• Il mondo dell’IT ci sta cambiando intorno (lo fa da
tempo in realta’, ma noi potevamo in un certo modo
“fregarcene”)
– Le reti geografiche sono cresciute molto + delle aspettative
fine 199x (MONARC)
• Modello gerarchico di MONARC non piu’ una necessita’
• La rete puo’ essere usata per ottimizzare accesso a storage (e
comprarne quindi meno)
– Le architetture di CPU stanno cambiando
Utilizzo + efficiente
• Mono -> multi core (da qualche anno)
• Cores x86 -> GPU (da qualche anno, ma non per noi)
• Cores x86 -> ARM (+ recente)
• In GRID, passaggio ormai a sottomissione via pilot
Maggiore potenza
di calcolo
Minore costo
di gestione
– Meno supporto centrale, piu’ CLOUD friendly
43
In una slide …
• Ridurre differenze
T0/T1/T2: girare
dove ci
Xrootd: BA, PI,
sono risorse
BO + T2
• Disaccoppiare Disco e CPU
nel brokering
PI, CNAF
• Nuove architetture
(ARM,
Phi)
• Transizione verso tools di
analisi/produzione comuni
CRAB3: PG, PD,
almeno con ATLAS
PI, TO
• MW GRID sostanzialmente
congelato da usare nei
nostri siti, ma:
• Essere pronti a sfruttare
opportunita’ impreviste (slot
in centri supercalcolo, risorse
opportunistiche) via CLOUD
– Tanto lavoro
daBA
fare: intra e
BO, PD,
inter cloud scheduling;
ottimizzazione dell'accesso allo
storage
• .. E additittura volunteer
computing per produzione
MC (completamente da fare)
44
Responsabilita’
L1
L2
L3
45
46
47
48
57
Richieste 2014
• Processo a 4 steps
1.
2.
3.
4.
Siamo qui!
1 Aprile: richieste CMS
Fine Aprile: report C-RSG
1 Settembre: aggiornamento richieste CMS
28 Ottobre: report finale C-RSG
Senza dire troppo sulla storia:
#2: accettate in sostanza le richieste 2014
#3: forte diminuzione richieste 2015 sul T1
(dovute principalmente a riduzione stima secondi
di presa dati 2015 + compromessi sulla frazione di
eventi da simulare)
Le risorse richieste a
maggio (meeting ref a
Pisa), a giugno (CSN1) e
adesso sono identiche!
58
Richieste 2014-2015
“paga il CERN”
“paga la
Giunta”
“paga la
CSN1”
Inoltre: delta 2014-2013 e’ MINORE, visto che il refereraggio calcolo aveva assegnato
piccolo overpledge l’anno scorso (come risulta da REBUS)
CMS-IT e’ al 13% di CMS
59
REBUS
T1
T2
60
Tier1 2014
Al netto delle dismissioni (vedi Donatella)
• Unico aumento sono 650 TB di TAPE
• CPU e Disco gia’ a posto
• a 40 Eur/TB (stima) sono circa 25kEur
61
TIER2
“mancano” 5.2 kHS06
(Nota preliminare …. Aspettare discussione su ReCaS prima di trarre troppe conclusioni)
62
Dismissioni T2
• (T1 segue altra strada)
• TOTALE e’
– 23.6 kHS06
– 440 TBN
Dismissioni pure =
437kEur
(se 12 Eur/HS06 + 350 Eur/TBN)
63
Richieste 2014 – Summary pre-RECAS
• T1
– Dismissioni come decise dal
centro
– 650 TB di Tape
• T2
– Aumento di 5.2 kHS06
– Dismissioni pari a 23.6 kHS06 e 440
TBN
– (+ server / networking come
share solito)
(se 12 Eur/HS06 + 350 Eur/TBN + 40 Eur/TB)
64
Per sito
A meno di 1000 Euro qua e la’, lo stesso che nei preventivi
65
66
2015
APRILE 2013
• Sostanziale diminuzione Tier1
• Tier2 invariati
SETTEMBRE 2013
A spanne, 300kEuro IN MENO su
T1_CNAF per il 2015 rispetto ai
numeri della CSN1 di Giugno
67
Le richieste T1 2015 sono adesso
davvero ridotte all’osso!
La richiesta di 300kH06 non e’ la MEDIA di utilizzo previsto nel 2015, ma IL MINIMO
Il modello “regge” solo perche’ nei mesi di shutdown (quando ci sono I reprocessing
completi) la farm HLT viene usata come pezzo del T1
68
Arriva ReCaS!
• Volutamente non ho nominato ReCaS per ora
• ReCaS puo’ aiutare con:
1.
2.
3.
4.
Tutto il Delta 2014-2013 nazionale
Tutte le dismissioni Bari 2014
Parte delle dismissioni Bari 2015
(Piccola)Parte del Delta 2015-2014
Appurato con ReCaS
Dipende da come
va la gara
Tabella finale richieste:
71
Penultimo: 2 punti
1. Nessuna richiesta Tier3 inserita nei preventivi
– Alla CSN1 di 09/12 si era parlato di distribuire (una piccola
parte delle) risorse dismesse dal T1 ai T3. Siamo
fortemente interessati, non e’ ancora successo perche’ le
nuove risorse al T1 sono arrivate da poco. Vorremmo
procedere con il sostegno della CSN1
2. Le richieste 2014-2015 di CMS sono volutamente flat
per il 2014, con il delta nel 2015.
– CMS ha detto chiaramente che e’ facolta’ delle FA
ridistribuire il carico sui 2 anni.
– L’INFN ha deciso di non farlo, e di lasciare tutto il carico sul
2015, e in tale modo sono state modulate le richieste.
72
Ultimo: Milestones 2014
• Attivare l'analisi utente al CNAF per tutti gli
utenti di CMS
– 01/06/2014
• Deployment di una infrastruttura per il test di
sottomissione jobs via cloud tramite tools
standard CMS
– 31/12/2014
• (negoziabili con I referees…)
73
Conclusioni
• Il computing di CMS in Italia funziona bene
– Una “non notizia”, e’ cosi’ da anni
– Non solo T1/T2/T3, ma stiamo allargando le attivita’ sullo
sviluppo “critico per noi” (con il poco mapower che riusciamo ad
attirare)
• CMS ha recepito i richiami (urla di dolore?) per il 2015,
abbassando le richieste
– A prezzo di metterci un una condizione assolutamente scomoda,
soprattutto se LHC andra’ bene
• ReCaS e’ un’ottima opportunita’ per risparmiare nel 2014
(appurato) e 2015 (in misura non ancora accertata)
– Ma ReCaS dura due anni, e’ importante che i siti non ReCaS
siano mantenuti in attivita’
– 2 anni sulla vita aspettata dei T2 e’ poca roba
74
Fly UP