Gestione delle code Batch: HTCondor

La gestione delle code batch nel Bc2S avveniva tramite PBS (Torque-Maui). La versione free di questo prodotto non è però adatta a cluster delle dimensioni simili a quelle previste per il data center ReCaS-Bari. Per questo motivo è stato necessario cambiare il gestore delle code batch.

Prima di fare una scelta sul sistema di code da utilizzare sulla farm ReCaS-Bari sono stati valutati diversi prodotti open source con l'obiettivo di fornire un migliore servizio in termini di funzionalità, scalabilità e affidabilità.

In particolare è stato valutato dapprima SLURM che, pur dando risultati soddisfacenti, si è dimostrato più adatto ad un ambiente di "Calcolo Parallelo" in cui le applicazioni cercano di usare in parallelo il massimo numero di slot di calcolo disponibili.

Successivamente è stata fatta una attenta valutazione di HTCondor.

La scelta del gestore del sistema di code (Batch System) è caduta alla fine su HTCondor per una serie di ragioni:

  • è un prodotto open source;
  • è orientato all'High Throughput Computing e quindi adatto a gestire le applicazioni che saranno eseguite nel data center ReCaS-Bari;
  • è in grado di operare con hardware eterogeneo, come quello del Bc2S, che è stato acquisito nel corso di diversi anni e quindi assemblando insieme server con differenti caratteristiche tecniche;
  • ha dimostrato di essere stabile e in grado di gestire il volume di carico atteso per un data center delle dimensioni di ReCaS-Bari;
  • ha dimostrato di scalare facilmente nel caso in cui le risorse dovessero aumentare in futuro.

Sistema di Batch sul cluster HPC: PBS

Per la gestione dei job sul cluster HPC di ReCaS-Bari, che è un cluster di modeste dimensioni, considerato che HTCondor non è particolarmente adatto alla gestione di code di job paralleli, si è preferito continuare ad utilizzare PBS, anche sulla base della esperienza acquisita negli anni passati su questo prodotto.

Gestione dello storage:

Anche per la gestione dello storage si sono cercate soluzioni in grado di soddisfare al meglio le esigenze dei principali utenti del data center. La scelta è caduta su:

  • GPFS

GPFS è il file system generale che consente a tutti gli utenti l'accesso  posix ai file  registrati nel sistema di storage da tutti i nodi di calcolo della farm ReCaS-Bari. GPFS è l'unico componente non open source utilizzato nel data center.

  • XRootD

XRootD è il file system utilizzato a livello centrale dell'esperimento ALICE. Con la realizzazione del data center ReCaS-Bari si è preferito fornire all'accesso allo storage ALICE direttamente con questo componente anziché montare XroootD al di sopra di GPFS.

Installazione e configurazione: Foreman e Puppet

Date le dimensioni del data center, e per gestire eventuali espansioni future, si è scelto di effettuare centralmente le operazioni di installazione e successiva contestualizzazione dei server.

Durante la valutazione dei prodotti in grado si svolgere queste due funzioni, particolare attenzione è stata posta al loro grado di flessibilità, alla semplicità del linguaggio di descrizione delle configurazioni, nonché alla loro capacità di scalare con le dimensioni della farm.

Per l'installazione e la configurazione dei server sono stati scelti Foreman and Puppet. In particolare Foreman viene utilizzato per l'installazione dei server mentre Puppet provvede alla loro contestualizzazione. 

Sebbene i due prodotti siano sviluppati e rilasciati separatamente, Foreman è costruito al di sopra di Puppet e questo fa si che i due prodotti appaiano fortemente integrati. 

Entrambi i software sono open source e quindi è possibile, se necessario, modificare il codice e adattarlo a requisiti specifici.

Monitoring: Zabbix

Zabbiz integra in un unico strumento tutte le caratteristiche desiderabili in un sistema di monitoring:

  • invio allarmi via IM, SMS, e-mail;
  • rappresentazione grafica dei parametri monitorati;
  • disponibilità di gran parte dei sensori necessari per monitorare la maggior parte dei parametri tipici di un datacenter,
  • facilità di installazione,
  • la disponibilità della documentazione e il sistema di supporto eccellente.
  • la capacità di mantenere la storia per anni con l'aiuto di funzioni down-campionamento e di pulizia.

Ticketing: OpenProject

Per la pianificazione  e la gestione delle attività, per la condivisione del codice, dei manuali, delle guide e delle informazioni (wiki) ci si è affidati ad OpenProject.