Comments
Description
Transcript
Diapositiva 1
Risultati test su GRID-IT G. Donvito (BARI) Outline: • Report produzione di CMS su LCG1 • Modalità di produzione su Grid • Proposte di modalità di analisi su Grid (LCG2 e DC04) • Interfaccia per McRunjob per la sottomissione dei job 23/01/04 Giacinto Donvito 1 Report sulla produzione CMS su LCG1 Esperienza sul testbed CMS/LCG0: (da luglio a ottobre 2003) • Risultati ottenuti nella produzione con CMKIN e CMSIM sul testbed CMS/LCG0: • 500 k eventi con CMKIN (~ 20 GB) • 1.5 M eventi con CMSIM (~ 1.5 TB) • Fondamentale collaborazione fra personale “Grid” e CMS Percentuale di successo dei job ~ 77% 23/01/04 Giacinto Donvito 2 Report sulla produzione CMS su LCG1 Dettagli produzione con OSCAR: • Si è conclusa una produzione ufficiale di 600k eventi (300K Bari + 300k Padova) con jobs da 250 eventi ciascuno. • Il testbed usato era composto da siti coinvolti sia nel progetto Grid-it sia in LCG1 ufficiale: •Bari ha usato: BARI, CATANIA, FERRARA, INGVBOLOGNA, LECCE, MILANO, NAPOLI, PADOVA, PISA. (~240 CPU) • Pisa tutti i precedenti più i siti di LCG1: CNAF, Legnaro, Torino. (~420 CPU) 23/01/04 Giacinto Donvito 3 Report sulla produzione CMS su LCG1 Dettagli produzione con OSCAR (2): • Servizi usati: • Resource Broker (1 al CNAF, 1 a Catania, 1 a Padova) • RLS installato al CERN • 1 MDS installato al CNAF Nome del Dataset AssID 4267 4268 4269 mu03_tt2mu mu03_tt2mu mu03_tt2mu Tempo Stimato per evento Tempi di esecuzione misurati Job sottomessi Exit_status0 (BOSS) RefDB Efficienza % 12 sec/ev 35974168198 sec 1253 453 400 32 12 sec/ev 34095-99889 sec 1157 418 400 35 12 sec/ev 37895169579 sec 880 435 398 * 45 * Due jobs hanno un problema nell'aggiornamento del catalogo di POOL (under investigation) 23/01/04 Giacinto Donvito 4 Report sulla produzione CMS su LCG1 Schema dell’interazione fra i tool di CMS e i servizi di Grid: Immagine presa da una bozza di CMS-Note su LCG0-LCG1 23/01/04 Giacinto Donvito 5 Report sulla produzione CMS su LCG1 Workflow di un job di produzione su Grid: RefDB RLS WN CE UI SE RB WN CE Utente SE 23/01/04 Giacinto Donvito 6 Report sulla produzione CMS su LCG1 Risultati della sottomissione: Siti Ass 4267 total Ass 4267 exit_status0 Ass 4267 % Ass 4268 total Ass 4268 exit_status0 Ass 4268 % Ass 4269 total Ass 4269 exit_status0 Ass 4269 % Bari ~16CPU(HT on) 106 43 41 148 54 36 76 57 75 Bologna (INGV) 28CPU 99 29 29 126 37 29 6 3 50 Catania 174 76 44 66 9 14 47 23 49 Ferrara 16CPU 35 11 31 9 3 33 8 8 100 Milano ~40CPU 165 46 28 153 31 20 64 19 30 Napoli 26CPU 99 64 65 68 52 76 160 105 66 Padova 66CPU 185 167 90 223 205 92 214 192 90 33 9 27 88 21 24 34 25 74 Pisa ~20CPU 28CPU I primi due assignment sono stati girati nel periodo delle vacanze natalizie, il terzo invece ha beneficiato di un maggiore supporto da parte dei amministratori dei vari siti. 23/01/04 Giacinto Donvito 7 Report sulla produzione CMS su LCG1 Risultati della sottomissione (2): Cause di failure più frequenti: • Failure dei servizi centrali: • Irraggiungibilità dei siti • Crash hardware • Problemi logistici (Disco pieno) • Crash di daemon (network server) •Failure dei siti: • Irraggiungibilità dei siti • Crash di daemon (PBS_SCHED) • errori di configurazione (problemi nel registrare l'output sullo SE) • Problemi di deamon di Grid 23/01/04 Giacinto Donvito 8 Report sulla produzione CMS su LCG1 Risultati della sottomissione (3): Cause di failure più frequenti (2): • Failure dovute a errori umani: • errori nella registrazione dei files di input • problemi nella gestione della replica del file di input (Dovuta ai diversi MDS usati per Grid-it e LCG1) e di output (non si usava un SE di "backup") • errori nella configurazione delle code e scelta dei requirements 23/01/04 Giacinto Donvito 9 Report sulla produzione CMS su LCG1 Risultati della sottomissione (4): 23/01/04 Giacinto Donvito 10 Report sulla produzione CMS su LCG1 Risultati della sottomissione (5): 23/01/04 Giacinto Donvito 11 Analisi su Grid Schema dell'analisi su Grid per il DC04 Requisiti software per il DC04: • I Tier 1 e Tier 2 selezionati installano: • LCG2. • Una versione predefinita del software di CMS per l'analisi: • Sulla UI: BOSS, ORCA, RGMA. • Sui WN: ORCA. L'installazione del middleware di LCG e del software di CMS dovrebbe avvenire con LCFGng. 23/01/04 Giacinto Donvito 12 Analisi su Grid Schema dell'analisi su Grid per il DC04 (2) Organizzazione dell’analisi: • I dati prodotti al Tier 0 verranno pubblicati su Grid (usando il catalogo di POOL) e storati su un SE: • I dati verranno replicati sui Tier 1 selezionati: • Questa fase richiede la compatibilità dei comandi di POOL con i tool di replica management di LCG2. • Verranno sottomessi dei job di analisi preconfigurate. • Le informazioni sulla localizzazione dei dati sulla Grid verranno ricavate usando i comandi del catalogo di POOL • Verranno creati dei job tramite un tool per analizzare i files in ambiente Grid (Verranno creati anche i JDL necessari) 23/01/04 Giacinto Donvito 13 Analisi su Grid Schema dell'analisi su Grid per il DC04 (3) Organizzazione dell’analisi (2): • I jobs creati verranno sottomessi all’RB che sceglierà la risorsa migliore in base ai Requirements e/o in base alla localizzazione dei dati. • I jobs sottomessi dovranno essere monitorati con BOSS o con R-GMA. (Boss potrebbe avere problemi nei siti dove non è consentita “outbound connectivity” per i WN). 23/01/04 Giacinto Donvito 14 Analisi su Grid Schema dell'analisi su Grid per il DC04 (4) Preparazione dei jobs su LCG2: • Per la creazione dei jobs bisogna considerare il tipo di accesso ai files che si potrà usare: • I jobs useranno un file XML locale e alla fine viene fatto l’upload del file, aggiornato l’RLS e il catalogo di POOL. • In caso di failure nell’aggiornamento del catalogo lo si potrà fare a mano (Il frammento XML sarà contenuto nel OutputSandbox) • I jobs effettueranno il download di tutti i files di input di cui hanno bisogno all’inizio del run. • L’accesso ai files da parte di COBRA dovrà essere modificato tenendo conto che i file non sono disponibili in locale • Lo script deve ricreare l’ambiente necessario per il run del job. 23/01/04 Giacinto Donvito 15 Analisi su Grid Schema dell'analisi su Grid per il DC04 (4) Preparazione dei JDL: • Il file JDL deve contenere i files dell’InputSandbox e dell’OuputSandbox. • I requirements che l’utente desidera (Tipo di CPU, Ram, CPU libere ecc.) • Il Rank con cui saranno scelte le risorse. • La possibilità di selezionare i siti in cui sono presenti i dati di input, oppure i siti collegati ad un determinato RC. • Potrebbe essere disponibile la capacità di ottimizzazione delle repliche prima della sottomissione del job. 23/01/04 Giacinto Donvito 16 Analisi su Grid Schema dell'analisi su Grid per il DC04 (4) Lavoro da fare: • Tool per il trasferimento files in ambiente Grid • Tool per il management dei siti e del software • Tool per il discovery dei dati in input ai job (con i comandi di POOL) • Tool per la creazione dei job e dei jdl (dipenderà strettamente dal sistema di accesso ai dati che userà COBRA) • Tool per la sottomissione dei jobs e il monitoring. 23/01/04 Giacinto Donvito 17 Graphic User Interface for McRunjob Objectives: ● Make a user-friendly Graphic tool for creation and submission of jobs for a complete chain of MCProduction with McRunjob ● Easy way to write configuration files of McRunjob ● Interaction with McRunjob Command Line ● Make easier the submission and retrieve of jobs in a grid environment 23/01/04 Giacinto Donvito 18 GUI for McRunjob Characteristics: ● Language used: C++ with Qt libraries ● Requirement: Qt version 3.x (www.trolltech.org) ● Works on: ● Local CMS farm: ● Grid Environment: User Interface Can use Boss DB to take trace of the jobs (On Grid and on Local Farm) or a file ● 23/01/04 Giacinto Donvito 19 GUI for McRunjob Characteristics(2): ● Class based GUI: modularity and expandibility ● Very easy to install (With the use of qmake utility) ● Few hardware resource needed (< 5 Mb of Ram) Already tested on testbed CMS/LCG0, on LCG1 and on Bari Farm 23/01/04 Giacinto Donvito 20 GUI for McRunjob Features… Write all configuration files... ...creation of jobs... ...submission to local farm... ...submission to grid... ...retrieve jobs output and status. 23/01/04 Giacinto Donvito 21 GUI for McRunjob To Do: • The possibility to save and load all the parameters of the GUI from a file. • Porting on LCG2 • Implement the configuration needed from the other steps of Production/Analysis (when the become availables) • Massive test all the stuff... • Feedback from users • Go on with the development in a deep interaction with Greg and Praveen • Implement the use of CMSprod. 23/01/04 Giacinto Donvito 22