Gestione delle code Batch: HTCondor
La gestione delle code batch nel Bc2S avveniva tramite PBS (Torque-Maui). La versione free di questo prodotto non è però adatta a cluster delle dimensioni simili a quelle previste per il data center ReCaS-Bari. Per questo motivo è stato necessario cambiare il gestore delle code batch.
Prima di fare una scelta sul sistema di code da utilizzare sulla farm ReCaS-Bari sono stati valutati diversi prodotti open source con l'obiettivo di fornire un migliore servizio in termini di funzionalità, scalabilità e affidabilità.
In particolare è stato valutato dapprima SLURM che, pur dando risultati soddisfacenti, si è dimostrato più adatto ad un ambiente di "Calcolo Parallelo" in cui le applicazioni cercano di usare in parallelo il massimo numero di slot di calcolo disponibili.
Successivamente è stata fatta una attenta valutazione di HTCondor.
La scelta del gestore del sistema di code (Batch System) è caduta alla fine su HTCondor per una serie di ragioni:
- è un prodotto open source;
- è orientato all'High Throughput Computing e quindi adatto a gestire le applicazioni che saranno eseguite nel data center ReCaS-Bari;
- è in grado di operare con hardware eterogeneo, come quello del Bc2S, che è stato acquisito nel corso di diversi anni e quindi assemblando insieme server con differenti caratteristiche tecniche;
- ha dimostrato di essere stabile e in grado di gestire il volume di carico atteso per un data center delle dimensioni di ReCaS-Bari;
- ha dimostrato di scalare facilmente nel caso in cui le risorse dovessero aumentare in futuro.
Sistema di Batch sul cluster HPC: PBS
Per la gestione dei job sul cluster HPC di ReCaS-Bari, che è un cluster di modeste dimensioni, considerato che HTCondor non è particolarmente adatto alla gestione di code di job paralleli, si è preferito continuare ad utilizzare PBS, anche sulla base della esperienza acquisita negli anni passati su questo prodotto.
Gestione dello storage:
Anche per la gestione dello storage si sono cercate soluzioni in grado di soddisfare al meglio le esigenze dei principali utenti del data center. La scelta è caduta su:
- GPFS
GPFS è il file system generale che consente a tutti gli utenti l'accesso posix ai file registrati nel sistema di storage da tutti i nodi di calcolo della farm ReCaS-Bari. GPFS è l'unico componente non open source utilizzato nel data center.
- XRootD
XRootD è il file system utilizzato a livello centrale dell'esperimento ALICE. Con la realizzazione del data center ReCaS-Bari si è preferito fornire all'accesso allo storage ALICE direttamente con questo componente anziché montare XroootD al di sopra di GPFS.
Installazione e configurazione: Foreman e Puppet
Date le dimensioni del data center, e per gestire eventuali espansioni future, si è scelto di effettuare centralmente le operazioni di installazione e successiva contestualizzazione dei server.
Durante la valutazione dei prodotti in grado si svolgere queste due funzioni, particolare attenzione è stata posta al loro grado di flessibilità, alla semplicità del linguaggio di descrizione delle configurazioni, nonché alla loro capacità di scalare con le dimensioni della farm.
Per l'installazione e la configurazione dei server sono stati scelti Foreman and Puppet. In particolare Foreman viene utilizzato per l'installazione dei server mentre Puppet provvede alla loro contestualizzazione.
Sebbene i due prodotti siano sviluppati e rilasciati separatamente, Foreman è costruito al di sopra di Puppet e questo fa si che i due prodotti appaiano fortemente integrati.
Entrambi i software sono open source e quindi è possibile, se necessario, modificare il codice e adattarlo a requisiti specifici.
Monitoring: Zabbix
Zabbiz integra in un unico strumento tutte le caratteristiche desiderabili in un sistema di monitoring:
- invio allarmi via IM, SMS, e-mail;
- rappresentazione grafica dei parametri monitorati;
- disponibilità di gran parte dei sensori necessari per monitorare la maggior parte dei parametri tipici di un datacenter,
- facilità di installazione,
- la disponibilità della documentazione e il sistema di supporto eccellente.
- la capacità di mantenere la storia per anni con l'aiuto di funzioni down-campionamento e di pulizia.
Ticketing: OpenProject
Per la pianificazione e la gestione delle attività, per la condivisione del codice, dei manuali, delle guide e delle informazioni (wiki) ci si è affidati ad OpenProject.