16/9/2014 - Piano di dismissione parziale di CRESCO1/2 e novità su CRESCO4

 

Piano di dismissione parziale di CRESCO1/2 e novità su CRESCO4
==============================================================
Allo stato attuale il sistema HPC CRESCO a Portici consiste dei cluster
CRESCO1/2 installati nel 2008 e dei nuovi CRESCO3/4 entrati in
produzione recentemente e dotati di tutto il parco software disponibile
sui vecchi sistemi.
L'attuale piena operatività dei nuovi cluster obbliga a riconsiderare il
ruolo di quelli più datati.
Il mantenimento in servizio di CRESCO2 causa un consumo di energia
significativo non più giustificabile a fronte della potenza di calcolo
fornita (~21 TFlops per 100 kW) con una efficienza inferiore ad 1/4 di
quella dei cluster più recenti. Inoltre molti nodi del cluster CRESCO1
sono stati inoltre convertiti nell'ultimo anno in macchine per i servizi
informatici generali di ENEA.
La capacità di calcolo dei nuovi cluster CRESCO3/4 complessivamente
offre una disponibilità di 120 TFlops ampiamente sufficiente a sopperire
al carico di lavoro di quella che verrà dismessa anche tenendo conto,
come descritto più avanti, che l'accesso a CRESCO4 verrà reso più facile
per l'insieme dell'utenza.
A ciò si aggiunge il fatto che non è più possibile (per scelta del
fornitore) rinnovare la manutenzione del sistema storage DCS9550
utilizzato dai cluster CRESCO1/2 e quindi tale manutenzione terminerà
definitivamente il 21/11/2014.
Per affrontare la nuova situazione descritta si procederà come segue:
1) A partire da lunedì 17/11/2014 verranno spenti i ~200 nodi CRESCO2
della prima generazione, dotati dai processori Clovertown E5345.
Verranno invece lasciati in operazione gli 82 nodi CRESCO2 dotati dei
processori più recenti, Nehalem E5530 e Westmere E5620, che nel loro
insieme forniscono circa 656 core per ~6 Tflops. Il nodo cresco2x257
diverrà il nodo di front-end del nuovo CRESCO2 "ridotto".
2) A partire da lunedì 17/11/2014 i file system GPFS afferenti al
vecchio sistema storage DCS9550
(/gpor_user,/gpor_proj,/gpor_tmp1,/gpor_usr0) saranno utilizzabili via
Infiniband da CRESCO2 (ridotto) e visibili ai nuovi cluster via
GEthernet ma non verrà più garantita nè la salvaguardia dei dati nè il
loro backup. Sarà cura dell'utenza trasferire sullo storage di CRESCO3/4
(/gporq1_1M,/gporq1_256k) gli eventuali dati prodotti su CRESCO1/2 se di
essi si richiede la salvaguardia.
3) a partire da oggi martedì 16/9/2014 è attiva la coda
"cresco4open_256h24" che permetterà a tutti gli utenti ENEAGRID di
sottomettere job di grande taglia su CRESCO4 anche se con priorità
inferiore a quella degli utenti dei gruppi che hanno finora acceduto a
CRESCO4 in base alle regole stabilite
(http://www.utict.enea.it/it/laboratori-virtuali/prime-pagine/tedat-hpc)
A partire da subito si invitano gli utenti di CRESCO1/CRESCO2 a
predisporsi ad utilizzare i cluster più recenti, ricompilando le proprie
applicazioni qualora necessario, e predisporsi ad iniziare il
trasferimento sui file system GPFS di CRESCO3/CRESCO4
(/gporq1_1M,/gporq1_256k) dei dati di CRESCO1/2 che ritengono debbano
sopravvivere alla dismissione dei cluster più vecchi.
Per il trasferimento vero e proprio di tali dati verranno inviate a
breve all'utenza delle istruzioni sintetiche per operare in modo tale da
ottimizzare i tempi di trasferimento e rispettare le quote assegnate sui
file system GPFS di arrivo.
Per quel che riguarda i file system GPFS dedicati a progetti speciali
(/gpor_minni0,1,2,3, /gpor_clima0,1,2) e gli spazi dati progettuali si
invitano gli utenti coinvolti a contattare gli amministratori di CRESCO
per stabilire il modo migliore di procedere nel periodo da ora alla
dismissione parziale di CRESCO2. Ovviamente per tali file system si
garantisce salvaguardia e backup ma si tratta di concordare la modalità
ottimale di accesso a tali dati per il futuro.
Per quel che riguarda CRESCO1 il numero dei nodi verrà ulteriormente
ridotto nel breve termine ma nel giro un mese verranno messi in servizio
5 nuovi nodi dotati di grande RAM (768 GB) e processori a 3.5 GHz che
potranno in parte supplire ad alcune delle esigenza specifiche
soddisfatte da CRESCO1.