...

Server

by user

on
Category: Documents
21

views

Report

Comments

Description

Transcript

Server
Tier 2
Legnaro-Padova
Update luglio 2010
CPU
NOTA:
Vengono evidenziate in BLU le variazioni rispetto alla
presentazione discussa a febbraio 2010

Risorse CPU CMS:

50 WNs, ~3600/390 core HEPSpec06 (~900 KSI00)

La maggior parte blade 2xIntel5430 2.66 GHz 16 GB RAM datati
gennaio 2008

Macchine piu' vecchie dismesse forzatamente per passaggio a SL564bit
Storage


240 TB disponibili al momento
DataDirect S2A6620 acquistato
fine 2009

240 TB lordi (120 dischi da 2TB),
dual controller, 4 porte FC 8Gb/s

190 TB netti: 40 TB per Alice, 30 TB
per sistema test, 120 TB per CMS

consegnato in ritardo ad aprile,
Da HLRMon, last 30 days (apr 2010)
DataDirect S2A6620
Storage: passaggio 6620->9900




Il 6620 messo in produzione verso il 20 di maggio ma da
subito, pur avendo superato i requisiti di performance richiesti
in gara, non presentava requisiti di stabilita’ e affidabilita’
necessari.
Mactronic, dopo aver sentito DataDirect, ha proposto la
sostituzione del 6620 con un 9900 senza spese (simile a
quelli della gara vinta a INFN-T1).
100TB gia nel 6620: problematiche varie nella
movimentazione nel 9900 tramite un sistema storage
temporaneo -> tempi lunghi e una infinita’ di problematiche da
risolvere – copia dei dati nel tmp terminata 12/07/2010 (sinc
dati da verificare).
Install 9900, move dischi/cestelli 6620->9900, copia dati da
tmp
Rete (stato attuale)
1 Gbps links
4 + 4 Gbps FC links
10 boxes
80 cores
o
Blade center
Server
Server
• Centro stella HP 5412
94 porte 1Gbps
4 porte 10Gbps
• Links da WN e disk
in trunk N * 1 Gbps
• 10 Gbps per Pd
• 2 Gbps verso router LNL
e GARR
HP-5412
Stato attuale
Server
Server
Server
Disk Array ~ 50 TB
S
A
N
Disk Array
Disk Array
Disk Array
Disk Array
N*Gbps trunk
2 Centro Stella Lab. - Garr
10 Gbps dark fiber LNL - PD.
Rete (fine 2010)
10 boxes
80 cores
o
Blade center
Stato fine 2010
• Centro stella
Extreme X650
24 porte 10Gbps
• Links da WN e disk
10 Gbps
• 10 Gbps per Pd
• 10 Gbps verso nuovo
router LNL e GARR-X
(Agosto 2011)
Switch Concentratore
10 Gbps link
> 200 Gbps Ethernet backbone
1 Gbps links
Server
Server
Server
Server
Server
4 + 4 Gbps FC links
Disk Array ~ 50 TB
S
A
N
Disk Array
Disk Array
Disk Array
Disk Array
N*Gbps trunk
10 Gbps Centro Stella Lab
10 Gbps dark fiber LNL - PD.
Infrastruttura

Lavori eseguiti nel 2008
– 220 kW di potenza elettrica in sala divisi su tre
blindo-sbarre che distribuiscono la potenza a tre
file di racks
– Una catena di 8 UPS (5 da 80 kVA e 3 da 30
kVA) che assicurano la ridondanza N+1. Gli UPS
sono in condivisione con la Divisione Acceleratori
– Gruppo elettrogeno da 630 kVA (in condivisione Il sistema UPS
con la divisione acceleratori)
– 4 chiller dedicati con una capacità di smaltimento
del calore pari a 340 kW
– 14 racks tipo APC con 7 cooler di raffreddamento
in row
Il gruppo elettrogeno
da 630 kW
– 6 racks tipo standard
– Impianto antincendio

Situazione stabile e tale da permettere la
crescita delle risorse secondo i piani previsti
(e anche oltre se necessario)
Il quadro elettrico
del sistema UPS
Uno dei chiller da 120 kW
Layout sala macchine T2
LNL LHC Tier 2 Center
Monitor infrastruttura

Sviluppata applicazione custom in LabView per monitor infrastruttura e
allarmistica
Job Monitor
Legnaro-Padova

Dal 2008 iniziati test d'integrazione tra le macchine di Legnaro e
quelle di Padova


possibile grazie a collegamento diretto in fibra a 10 Gb/s tra le due sedi
Obiettivo finale avere un T2 che possa essere fisicamente
distribuito tra le due sedi

condivisione di risorse hardware, infrastruttura (possibilita' di sfruttare due
sale macchine) e soprattutto manpower
Centro Stella Farm T2 2 Gbps
HP Procurve 5412
Router
LNL
PoP
Garr
Dark Fiber 15 Km
10 Gbps
Centro Stella Farm Padova
HP Procurve 5412
Legnaro-Padova


Prima fase (da fine 2008): condivisione dello storage CMS
con la farm grid di Padova

il sito di Padova (sito grid separato e indipendente da LNL) usa l'SE di
Legnaro come default SE per la VO CMS

i job di analisi runnano indifferentemente a PD o a LNL, accedendo
sempre allo stesso storage

setup in produzione da inizio 2009, registrato in CMS come T3

utilizzo senza problemi del link a 10 Gb/s e accesso a dCache da
remoto
In questa configurazione i due siti sono separati e indipendenti, ognuno
con i suoi CE e WN, solo l'SE condiviso per la vo CMS
Legnaro-Padova

Seconda fase (da luglio 2009): macchine fisicamente a
Padova pienamente integrate nel T2 LNL

Worker Nodes di Padova nello stesso cluster LSF di Legnaro, sotto gli
stessi CE e BDII: unico sito grid con macchine distribuite in due sedi

1 FTE (su due persone) del servizio calcolo di Padova dedicate alle
attivita' del T2 LNL-PD: Alberto Crescente e Roberto Ferrari

creato quindi un gruppo di persone LNL-PD che collabora alla gestione
del T2 distribuito

A luglio 2010 a PD ci sono 13 WN/104 core e un piccolo SE per la vo
“superb”, in futuro prevediamo di distribuire abbastanza equamente WN
e CE ma lasciare concentrato in un posto lo storage ed i servizi critici
Persone


Grazie anche al lavoro fatto di integrazione con Padova, la
situazione del personale coinvolto nella gestione del T2 è riassunta
nella seguente tabella; con settembre od ottobre 2010, allo stato
attuale, perderemo l’effort, decisamente importante per la
gestione del T2, contributo di Simone Badoer (previsto IGI)
Inoltre ci sono le persone di CMS Padova responsabili della
parte riguardante la fisica (analisi, gruppi di fisica, gestione
dataset, ...)

U. Gasparini, S. Lacaprara, E. Torassa
Metrica 1: CMS site availability
All CMS T2 Sites
2010-01-01 / 2010-06-30
Metrica 1: CMS site availability (2) 2010-01-01 / 2010-06-30
All CMS Sites
Metrica 2: occupazione CPU (normalized)
Da HLRMon, last 30 days (Jun-Jul 2010)

Utilizzo sensibile da VO non-LHC In HLRMon

Da fine giugno uso intensivo con alta effiecienza di alice
Metrica 3: % successful jobs
2010-01-01 / 2010-06-30
La maggior parte dei failure sono concentrati in picchi e causati da errori degli utenti
Quando il problema e' di sito e' riscontrabile nelle statistiche di SAM e JobRobot (vedi slide anche slides febbraio 2010)
=> secondo noi questa metrica non e' indicativa della bonta' di un sito
Metrica 3: % successful jobs (2)
2010-01-01 / 2010-06-30
1% UNK Status
80%
2% GRID Fail
Globus errore 10 ?!
16%
Situazione acquisti 2010


Acquisto CPU: gara ~90kE effettuata su mercato elettronico
vinta da HP con un sistema blade da 4800 HS06: 15 lame, 2
WN per lama, 2xIntel-X5650 (6x2 = 12 core) per WN => 30
WN / 360 core
-> rimane 1 posto libero per un’ulteriore lama da acquistare
successivamente.
Da completarsi pratiche burocratiche e successiva consegna
Acquisto Storage: rimangono 56kE per acquisto/i da
effettuarsi entro fine 2010. Potrebbe essere conveniente
completare con ulteriori 30 dischi (~46 TBN) il 9900 con I 3
cassetti a disposizione (120+30=150 <- max supportato dal
9900 con 3 cassetti)
NOTA: con I problemi del 6620 non abbiamo ritenuto
opportuno procedere, per ora, con ulteriori acquisti.
Richieste 2011: Totale: 340 keuro

NOTA: prevista associazione al 3o gruppo di fisica

Acquisto CPU:


Acquisto Storage:


Target 11 kHS06 (8.4 kHS06 a fine 2010)
 Richieste: 2.6 kHS06 => 65 keuro
Target 750 TBN (400 TBN a fine 2010)
 Richieste: 350 TBN => 228 keuro
Altro:


Network: 17 keuro per schede 10Gb e switch
Server: 30 keuro (7 server per sostituzione 3 door
gridftp, 1 HLR, 1 CE, 1 Ganglia + Monitor
infrastruttura, piu' aggiunta di 1 nuova UI)
Fly UP