Comments
Description
Transcript
Server
Tier 2 Legnaro-Padova Update luglio 2010 CPU NOTA: Vengono evidenziate in BLU le variazioni rispetto alla presentazione discussa a febbraio 2010 Risorse CPU CMS: 50 WNs, ~3600/390 core HEPSpec06 (~900 KSI00) La maggior parte blade 2xIntel5430 2.66 GHz 16 GB RAM datati gennaio 2008 Macchine piu' vecchie dismesse forzatamente per passaggio a SL564bit Storage 240 TB disponibili al momento DataDirect S2A6620 acquistato fine 2009 240 TB lordi (120 dischi da 2TB), dual controller, 4 porte FC 8Gb/s 190 TB netti: 40 TB per Alice, 30 TB per sistema test, 120 TB per CMS consegnato in ritardo ad aprile, Da HLRMon, last 30 days (apr 2010) DataDirect S2A6620 Storage: passaggio 6620->9900 Il 6620 messo in produzione verso il 20 di maggio ma da subito, pur avendo superato i requisiti di performance richiesti in gara, non presentava requisiti di stabilita’ e affidabilita’ necessari. Mactronic, dopo aver sentito DataDirect, ha proposto la sostituzione del 6620 con un 9900 senza spese (simile a quelli della gara vinta a INFN-T1). 100TB gia nel 6620: problematiche varie nella movimentazione nel 9900 tramite un sistema storage temporaneo -> tempi lunghi e una infinita’ di problematiche da risolvere – copia dei dati nel tmp terminata 12/07/2010 (sinc dati da verificare). Install 9900, move dischi/cestelli 6620->9900, copia dati da tmp Rete (stato attuale) 1 Gbps links 4 + 4 Gbps FC links 10 boxes 80 cores o Blade center Server Server • Centro stella HP 5412 94 porte 1Gbps 4 porte 10Gbps • Links da WN e disk in trunk N * 1 Gbps • 10 Gbps per Pd • 2 Gbps verso router LNL e GARR HP-5412 Stato attuale Server Server Server Disk Array ~ 50 TB S A N Disk Array Disk Array Disk Array Disk Array N*Gbps trunk 2 Centro Stella Lab. - Garr 10 Gbps dark fiber LNL - PD. Rete (fine 2010) 10 boxes 80 cores o Blade center Stato fine 2010 • Centro stella Extreme X650 24 porte 10Gbps • Links da WN e disk 10 Gbps • 10 Gbps per Pd • 10 Gbps verso nuovo router LNL e GARR-X (Agosto 2011) Switch Concentratore 10 Gbps link > 200 Gbps Ethernet backbone 1 Gbps links Server Server Server Server Server 4 + 4 Gbps FC links Disk Array ~ 50 TB S A N Disk Array Disk Array Disk Array Disk Array N*Gbps trunk 10 Gbps Centro Stella Lab 10 Gbps dark fiber LNL - PD. Infrastruttura Lavori eseguiti nel 2008 – 220 kW di potenza elettrica in sala divisi su tre blindo-sbarre che distribuiscono la potenza a tre file di racks – Una catena di 8 UPS (5 da 80 kVA e 3 da 30 kVA) che assicurano la ridondanza N+1. Gli UPS sono in condivisione con la Divisione Acceleratori – Gruppo elettrogeno da 630 kVA (in condivisione Il sistema UPS con la divisione acceleratori) – 4 chiller dedicati con una capacità di smaltimento del calore pari a 340 kW – 14 racks tipo APC con 7 cooler di raffreddamento in row Il gruppo elettrogeno da 630 kW – 6 racks tipo standard – Impianto antincendio Situazione stabile e tale da permettere la crescita delle risorse secondo i piani previsti (e anche oltre se necessario) Il quadro elettrico del sistema UPS Uno dei chiller da 120 kW Layout sala macchine T2 LNL LHC Tier 2 Center Monitor infrastruttura Sviluppata applicazione custom in LabView per monitor infrastruttura e allarmistica Job Monitor Legnaro-Padova Dal 2008 iniziati test d'integrazione tra le macchine di Legnaro e quelle di Padova possibile grazie a collegamento diretto in fibra a 10 Gb/s tra le due sedi Obiettivo finale avere un T2 che possa essere fisicamente distribuito tra le due sedi condivisione di risorse hardware, infrastruttura (possibilita' di sfruttare due sale macchine) e soprattutto manpower Centro Stella Farm T2 2 Gbps HP Procurve 5412 Router LNL PoP Garr Dark Fiber 15 Km 10 Gbps Centro Stella Farm Padova HP Procurve 5412 Legnaro-Padova Prima fase (da fine 2008): condivisione dello storage CMS con la farm grid di Padova il sito di Padova (sito grid separato e indipendente da LNL) usa l'SE di Legnaro come default SE per la VO CMS i job di analisi runnano indifferentemente a PD o a LNL, accedendo sempre allo stesso storage setup in produzione da inizio 2009, registrato in CMS come T3 utilizzo senza problemi del link a 10 Gb/s e accesso a dCache da remoto In questa configurazione i due siti sono separati e indipendenti, ognuno con i suoi CE e WN, solo l'SE condiviso per la vo CMS Legnaro-Padova Seconda fase (da luglio 2009): macchine fisicamente a Padova pienamente integrate nel T2 LNL Worker Nodes di Padova nello stesso cluster LSF di Legnaro, sotto gli stessi CE e BDII: unico sito grid con macchine distribuite in due sedi 1 FTE (su due persone) del servizio calcolo di Padova dedicate alle attivita' del T2 LNL-PD: Alberto Crescente e Roberto Ferrari creato quindi un gruppo di persone LNL-PD che collabora alla gestione del T2 distribuito A luglio 2010 a PD ci sono 13 WN/104 core e un piccolo SE per la vo “superb”, in futuro prevediamo di distribuire abbastanza equamente WN e CE ma lasciare concentrato in un posto lo storage ed i servizi critici Persone Grazie anche al lavoro fatto di integrazione con Padova, la situazione del personale coinvolto nella gestione del T2 è riassunta nella seguente tabella; con settembre od ottobre 2010, allo stato attuale, perderemo l’effort, decisamente importante per la gestione del T2, contributo di Simone Badoer (previsto IGI) Inoltre ci sono le persone di CMS Padova responsabili della parte riguardante la fisica (analisi, gruppi di fisica, gestione dataset, ...) U. Gasparini, S. Lacaprara, E. Torassa Metrica 1: CMS site availability All CMS T2 Sites 2010-01-01 / 2010-06-30 Metrica 1: CMS site availability (2) 2010-01-01 / 2010-06-30 All CMS Sites Metrica 2: occupazione CPU (normalized) Da HLRMon, last 30 days (Jun-Jul 2010) Utilizzo sensibile da VO non-LHC In HLRMon Da fine giugno uso intensivo con alta effiecienza di alice Metrica 3: % successful jobs 2010-01-01 / 2010-06-30 La maggior parte dei failure sono concentrati in picchi e causati da errori degli utenti Quando il problema e' di sito e' riscontrabile nelle statistiche di SAM e JobRobot (vedi slide anche slides febbraio 2010) => secondo noi questa metrica non e' indicativa della bonta' di un sito Metrica 3: % successful jobs (2) 2010-01-01 / 2010-06-30 1% UNK Status 80% 2% GRID Fail Globus errore 10 ?! 16% Situazione acquisti 2010 Acquisto CPU: gara ~90kE effettuata su mercato elettronico vinta da HP con un sistema blade da 4800 HS06: 15 lame, 2 WN per lama, 2xIntel-X5650 (6x2 = 12 core) per WN => 30 WN / 360 core -> rimane 1 posto libero per un’ulteriore lama da acquistare successivamente. Da completarsi pratiche burocratiche e successiva consegna Acquisto Storage: rimangono 56kE per acquisto/i da effettuarsi entro fine 2010. Potrebbe essere conveniente completare con ulteriori 30 dischi (~46 TBN) il 9900 con I 3 cassetti a disposizione (120+30=150 <- max supportato dal 9900 con 3 cassetti) NOTA: con I problemi del 6620 non abbiamo ritenuto opportuno procedere, per ora, con ulteriori acquisti. Richieste 2011: Totale: 340 keuro NOTA: prevista associazione al 3o gruppo di fisica Acquisto CPU: Acquisto Storage: Target 11 kHS06 (8.4 kHS06 a fine 2010) Richieste: 2.6 kHS06 => 65 keuro Target 750 TBN (400 TBN a fine 2010) Richieste: 350 TBN => 228 keuro Altro: Network: 17 keuro per schede 10Gb e switch Server: 30 keuro (7 server per sostituzione 3 door gridftp, 1 HLR, 1 CE, 1 Ganglia + Monitor infrastruttura, piu' aggiunta di 1 nuova UI)