...

ppt

by user

on
Category: Documents
33

views

Report

Comments

Description

Transcript

ppt
Stato del Tier-1
secondo gli esperimenti LHC
U. Marconi
INFN, Sezione di Bologna
CSN1, 1/2/05
1
Sommario
• Ruolo del Tier-1 secondo gli esperimenti LHC.
• Esperienza del 2004.
• Considerazioni sullo stato degli elementi
fondamentali del centro.
– Infrastruttura, Rete, Farm, Disco, Tape.
• Considerazioni sull’organizzazione.
• Conclusioni.
2
Ruolo del Tier-1
• Il Tier-1 riceve dal Tier-0 una frazione dei dati raw, o di dati già
sottoposti ad una prima fase di ricostruzione, e deve archiviarli.
• I dati debbono essere elaborati in loco per produrre dati in formato
utile all’analisi.
• I dati da analizzare debbono essere inviati ai Tier-2 e agli altri Tier1.
• La produzione MC è effettuata nei Tier-2 ma archiviata nel Tier-1,
che provvede anche a smistarli verso gli altri Tier.
• Il Tier-1 deve anche essere dotato di risorse con cui effettuare
l’analisi.
– Ciò è essenziale per LHCb in quanto prevede di fare tutta l’analisi al Tier-1.
– Gli altri esperimenti LHC prevedono che grossa parte dell’analisi sia fatta
nei Tier-2.
• Il Centro deve avere esercitare un ruolo di indirizzo nelle scelte
tecniche e fornire assistenza ai Tier-2.
3
Schema (semplificato) del Tier-1
Local Area Network
Data in
Data out
GRID front-end
(data)
Scheduled
Farm
(re-reconstruction)
Application software
Jobs in
GRID front-end
(jobs)
Disk storage
Chaotic
Farm
(analysis)
Application software
Batch scheduler
Tape
Various Services
(GRID infrastructure,
Databases, Monitoring,
Web Services, etc.)
Infrastructure
(Cooling, Power, UPS,
Fire Estinguisher,
Cabling, etc.)
OpenLab
(HW and SW R&D) 4
Sviluppo del Tier-1
ATLAS
• All’avvio di LHC
–
–
–
–
Disco: ~1PB
Tape: ~ 1PB
CPU: ~ 10MSi2k
Rete:
2007
2008
2009
2010
2011
2012
Disk
(TB)
550
1500
2300
4200
5700
7200
Tape
(TB)
300
1000
1800
3100
4500
6100
CPU
(MSi2k)
0.8
2.6
4.8
8.1
12.
17
2011
2012
• Tier-0: 10Gb/s
• Tier-1, Tier-2: 1Gb/s
• In seguito crescono di
un ordine di grandezza:
disco, tape e CPU
LHCb
2006
2007
2008
2009
2010
Disk
(TB)
120
240
400
500
560
Tape
(TB)
100
200
350
700
1200
CPU
(MSi2k)
0.22
0.44
0.74
0.92
1.4
5
Esperienza nel 2004
• Per la prima volta:
– E’ stata utilizzata un’unica farm di considerevoli
dimensioni (circa 750 CPU) condivisa da tutti gli
esperimenti.
– Si è pesantemente fatto ricorso allo storage su disco.
– E’ stata utilizzata l’archiviazione su tape per decine di
TB di dati.
– Si è utilizzata massicciamente la GRID in produzione.
• Fra molte difficoltà è stato possibile guadagnare
importanti informazioni.
6
Esperienza: Farm (I)
• Il batch server/scheduler di pubblico dominio
Torque/MAUI, adottato per la sottomissione dei job, si è
rivelato inaffidabile.
– Nelle attese il sistema open source doveva essere potentissimo.
– Ha mostrato seri limiti di scalabilità senza ragioni facilmente
comprensibili.
– Scarso il supporto da parte degli sviluppatori.
• Di recente è stata presa la decisione di passare a LSF.
– Sistema proprietario, utilizzato con successo al CERN.
• Errata o disomogenea configurazione dei nodi.
– Ad esempio, i dischi di rete talvolta non sono stati montati.
– E’ sufficiente usare maggiore rigore e affidarsi a servizi di
monitoraggio adeguati.
7
Esperienza: Farm (II)
• Stato di riempimento completo di un disco interno
dei nodi di calcolo della farm.
– Effetto “buco nero”: il nodo risucchia tutti i job in coda
nello scheduler, che non trovando spazio disco muoiono
all’istante. Un incubo per i manager di produzione!
– Bisogna adottare servizi di monitoraggio che
retroagiscano sullo scheduler o sul WMS di GRID.
– Una trovata è stata il “pilot job”, che prima di
sottomettere il job vero e proprio sonda lo stato del
nodo e verifica che esso soddisfi i requisiti necessari
all’esecuzione.
8
Esperienza: Storage disco (I)
• Vari problemi a basso livello sull’hardware.
– La prima soluzione immaginata per procurarsi spazio disco, di
cavarsela cioè con soluzioni storage a basso costo o magari
assemblate, pur se con buone componenti, si è rivelata
impraticabile.
– I dispositivi disco sono oltremodo delicati ed un
malfunzionamento può far perdere migliaia di ore di
computazione.
– E’ necessario ricorrere a prodotti di marca, di aziende che
possano garantire affidabilità e supporto tecnico.
– I problemi di affidabilità hanno limitato la disponibilità di risorse
con cui soddisfare le esigenze di spazio disco degli esperimenti.
– Con la messa in produzione di sistemi SAN di grosse dimensioni,
come l’IBM FASsT900, e l’aggregazione dei volumi, mediante
file system paralleli, dovremmo superare anche questa difficoltà.
9
Esperienza: Storage disco (II)
• Problemi seri con il protocollo NFS per l’export dei dischi in rete
verso i nodi di calcolo.
– NFS è utilizzato principalmente per la condivisione del software applicativo da
parte dei nodi di calcolo, ma in parte anche per lo storage dei dati.
– I nodi della farm a turno, casualmente, si trovano nell’impossibilità di accedere
al disco. La conseguenza è il blocco di tutti i job che fanno uso del disco di
rete coinvolto.
– Il motivo a tutt’oggi è ignoto. Forse si deve all’accoppiamento di punti di
debolezza del protocollo, o dell’implementazione Linux di NFS, con le latenze
dovute alla complessità della rete del centro.
– Sono state pazientemente individuate cure che limitano il problema, pur senza
risolverlo.
• Come repository del software la soluzione verso la quale ci si sta
orientando è quella di abbandonare NFS e passare ad AFS, che offre,
almeno come protocollo, maggiori garanzie di robustezza.
10
Esperienza: Tape
• Problemi a basso livello sull’hardware.
– Il funzionamento dei drive LTO2 con CASTOR ha mostrato seri limiti.
– Uno stress notevole per il responsabile del servizio costretto al baby-sitting dei
drive.
– Si dovrebbe curare con il passaggio ai 9940B: a breve lo sapremo.
• A più alto livello:
– Al momento l’accesso caotico ad una grossa quantità di dati è una pretesa
eccessiva. Se i dati su nastro non sono letti in maniera accorta, il sistema
diventa difficilmente impiegabile.
– Il problema si cura aumentando il numero di lettori, ma soprattutto disponendo
di un’area disco di dimensioni comparabili con l’area tape.
– Aiuta certamente in questa fase pianificare con l’amministratore del sistema il
trasferimento su disco di insiemi di dati di grossa dimensione.
• Ad esempio se c’è da fare reprocessing l’esperimento chiede una quota temporanea
di disco e passa all’amministratore di CASTOR la lista dei file. L’amministratore li
copia su disco in modo intelligente. Dopo il reprocessing il disco può essere
liberato.
– Le prestazioni di CASTOR sono una questione aperta anche e soprattutto per il
CERN.
11
Valutazione
• Infrastruttura:
– E’ adeguata.
• Rete:
– L’esperienza in questo ambito è molta, ma poiché la scala è grande, è
necessario potenziare gli strumenti di monitoraggio e definire strumenti
per la certificazione di tutte le sue parti, senza dare nulla per scontanto.
• Farm:
– La competenza è avanzata: si è imparato come costruirle.
– E’ essenziale disporre di strumenti di monitoraggio e un’allarmistica
maggiormente efficaci. Ciò che esiste non è stato utilizzato in maniera
appropriata.
• Storage disco e Tape:
– Sono elementi critici.
– E’ necessario investire su questo.
• Organizzazione del lavoro e disponibilità di man power:
– E’ cruciale, come dirò nel seguito.
12
Sull’organizzazione (I)
• È necessario lavorare per attuare la transizione da una
condizione di lavoro artigianale (in cui si procede anche
grazie a trovate estemporanee, possibili su piccola scala)
ad una impostazione industriale e sistematica.
• Manca un organigramma dettagliato.
• Il personale è insufficiente ed è impiegato in troppi servizi
con naturali perdite di efficienza.
• La mancanza di personale sta limitando fortemente la
possibilità di collaudo, certificazione e sperimentazione
delle risorse hardware e del software.
– Non si possono usare in produzione elementi non collaudati.
– È necessario definire protocolli di certificazione di ogni elemento
critico.
• Gli esperimenti dovranno collaborare alla definizione dei
protocolli di certificazione.
13
Sull’organizzazione (III)
• Ricerca e sviluppo
– È naturale immaginare che l’impiego su questa scala di
tecnologie costose e potenti possa fornire importanti ricadute a
tutto vantaggio dell’Ente.
– Come si fa R&D nello sviluppo del software di GRID, così si
dovrebbe fare sui sistemi di calcolo e infrastrutturali.
• Non si pretende di inventare un nuovo dispositivo hardware, si possono
però sperimentare soluzioni hardware e software nuove (es.: filesystem
paralleli di nuova generazione), ricavando uno spazio di OpenLab
all’interno del centro.
• Lo si potrebbe fare sottraendo una frazione del tempo e delle risorse spese
nei servizi di routine.
• Questo aspetto è importante per la maturazione professionale del personale
impegnato nella gestione del Centro e servirebbe anche per dare loro
maggiore motivazione e soddisfazione.
14
Sull’organizzazione (IV)
• Man power
– Per coprire le esigenze di servizio del Centro, già ora e a maggior
ragione a regime, occorre iniettare nuovo personale.
– Stime ragionevoli si attestano su ordine di 10 unità mancanti.
• Si dovrebbe inoltre tenere conto del fatto che una frazione del tempo
dovrebbe essere resa disponibile per attività di ricerca e innovazione anche
per il personale di servizio.
– Inoltre, gli esperimenti ritengono importante avere personale al
Tier-1 specificamente dedicato alle loro esigenze.
– Non è una buona idea rimandare ancora nuove assunzioni: si deve
infatti tenere conto del tempo necessario alla formazione e
all’assestamento di nuove forze.
• Per formare un operatore esperto valutiamo occorrano due anni.
15
Uso della GRID
• Durante il 2004, gli esperimenti LHC hanno fatto
parzialmente o integralmente uso al Tier-1 degli
strumenti di GRID.
• Per il 2005 tutte le componenti italiane del calcolo LHC
sono d’accordo nell’impiegare, in produzione, al Tier-1,
esclusivamente gli strumenti di GRID nella versione
fornita dall’INFN.
– Nel caso in cui per far ciò sarà necessario fare adattamenti al
software d’esperimento si confida nella disponibilità e
collaborazione degli sviluppatori/amministratori della GRID
italiana.
16
Conclusioni
• Il Centro a partire dall’avvio del progetto è cresciuto
molto.
• C’è ancora tanto lavoro da fare, soprattutto nel
reclutamento, nella formazione e nell’organizzazione.
• È importante che gli esperimenti abbiano un ruolo attivo
e collaborino alla soluzione dei problemi.
• Benché i servizi di GRID permettano di pensare ad un
modello di calcolo decentrato, più opportunistico, in linea
di principio, di quello gerarchico, è essenziale vi sia un
forte cuore al suo centro.
• Il Tier-1 deve funzionare!
17
Fly UP