ReCaS Bari - I Servizi Services

Farm batch

La farm batch dispone di circa 9000 job slot ciascuno dei quali ha a disposizione 4 GB di RAM. Ciascun server di calcolo, che contiene fino ad un massimo di 64 slot, può accedere, alla velocità di 10 Gbps, a tutto lo spazio disco di ReCaS-Bari pari a 3800 TB in singola replica più 180 Tb in replica due (per i dati più preziosi). Per la gestione dello storage viene utilizzato il file system distribuito GPFS.

Il sistema operativo utilizzato è CentOS 6, e le code vengono gestite dal batch system HTCondor, in grado eseguire job mono- e multi-core.

Il massimo tempo di esecuzione consentito per ciascun job è di 50 ore.

Una volta ottenuta le credenziali di accesso i job possono essere sottomessi direttamente al sistema di code (vedi istruzioni).  

Se si dispone di un certificato personale, i job possono anche essere sottomessi via GRID utilizzando un tool di sottomissione di job, come per esempio CRAB, Dirac, JST, etc.

E' anche possibile eseguire job che richiedono un ambiente diverso da CentOS 6, utilizzando container Docker sulle risorse batch tramite il software uDocker (vedi istruzioni).

Cluster HPC

Il cluster dispone di fino a 400 core fisici (800 considerando l'hyperthreading) ciascuno con 4 GB di RAM. È composto da 20 server connessi tra loro con connessioni a bassa latenza (Infiniband), ciascuno dei quali è dotato di una scheda acceleratrice grafica NVIDIA K40. Ciascun server di calcolo, può accedere, alla velocità di 10 Gbps, a tutto lo spazio disco di ReCaS-Bari (pari a 3800 TB in singola replica più 180 TB in replica due) gestito attraverso il file system distribuito GPFS.

Il sistema operativo utilizzato è CentOS 6 (in fase di migrazione a CentOS 7) mentre per la gestione delle code è utilizzato Torque/MAUI(PBS) .

Il massimo tempo di esecuzione di un job consentito è di 50 ore.

Una volta ottenuta le credenziali i job possono essere sottomessi direttamente a Torque/MAUI(PBS) (vedi istruzioni).  

Cluster HPC-GPU

 Il Cluster GPU è parte integrante del cluster HPC di ReCaS-Bari e vede la propria potenzialità maggiormente espressa per applicazioni che utilizzano GPU. Mette a disposizione 1755 core, 13.7 TB di RAM, 55 TB di spazio disco e 38 GPU ad altissime prestazioni (18 Nvidia A100 e 20 Nvidia V100). Ogni nodo ha accesso al file system distribuito di ReCaS-Bari, con circa 3800 TB in singola replica e altri 180 TB, dove è garantita una maggiore sicurezza dei dati attraverso la doppia replica. La banda di comunicazione nodo-storage è di 10 Gbps.
Le applicazioni sono eseguite esclusivamente tramite Docker container, tecnologia che conferisce semplicità di configurazione ed esecuzione, affidabilià, flessibilità e sicurezza.
L'utente può richiedere l'istanziazione di servizi interattivi, come IDE utilizzabili da remoto (Jupyter Notebook e RStudio), e la sottomissione di workflow rappresentati con Directed Acyclic Graphs (DAG).
Ove possibile, i servizi saranno istanziati con IP privato, in modo da non essere raggiungibili dall'esterno e quindi meno vulnerabili agli attacchi informatici: in questo caso l'utente potrà accedere alle proprie risorse attraverso una VPN. Per poter utilizzare i servizi offerti dal Cluster GPU è necessario che l'utente faccia una apposita richiesta.


Link utili:

JupyterHub con GPU
JupyterHub senza GPU
Servizi_Interattivi/JupyterHub
Servizi_Interattivi/Rstudio
Sottomissione Job

Guide:

Docker and Dockerfile

Presentazioni:
2° Congresso della Sezione INFN e del Dipartimento di Fisica di Bari, 03-04 Feb 2022

Cloud@ReCaS-Bari

L'infrastruttura cloud di ReCaS-Bari conta su 1688 CPU core, 6.7 TB di RAM e 270 TB di spazio disco in replica tre gestito da CEPH.

Sull'infrastruttura cloud l'utente può istanziare  macchine virtuali (VM) o cluster di macchine virtuali con diverse scelte del sistema operativo Linux: Ubuntu 16.04 LTS, Debian 9, CentOS 7, CentOS 6, Fedora (su richiesta) oppure  con un sistema operativo Windows Server R 2012 (versione trial, attivabile dall'utente che possieda una licenza). L'utente può anche creare istanze di immagini importate autonomamente.

Normalmente le VM vengono istanziate con IP privato, in modo da non essere raggiungibili dall'esterno e quindi meno vulnerabili agli attacchi informatici: in questo caso l'utente potrà accedere alle proprie risorse attraverso una VPN per la cui attivazione necessita di credenziali fornite dall'infrastruttura.

Laddove l'utente avesse la necessità di esporre dei servizi all'esterno (come un web server o una interfaccia), può fare richiesta di utilizzo di indirizzi IP pubblici.

Per l'accesso alle macchine virtuali è necessario utilizzare una coppia di chiavi pubblica/privata (iniettata nell'istanza al momento della creazione). Il sito di supporto dell'infrastruttura fornisce istruzioni su come generare una coppia di chiavi. 

 

Tape Storage

La Tape Library IBM, System StorageTS3500, in dotazione a ReCaS-Bari è in grado di archiviare su nastro nominalmente 2500 TB (3900 TB di fatto) di dati.

La Tape library  viene utilizzata per due funzioni:

  • replica su nastro  dei file più preziosi ma presenti anche su disco: in questo modo si dispone di una copia di back-up che può essere utilizzata in caso di  perdita di dati per malfunzionamenti del disco.
  • archiviazione per lungo periodo di alcuni file acceduti  molto di rado che quindi si possono cancellare dal disco liberando spazio più prezioso lasciandosi sempre la possibilità di poter ricopiare su disco i file archiviati.  

Personal storage

Questo servizio viene fornito utilizzando una istanza di ownCloud installata su ReCaS (https://recascloud.ba.infn.it/).

Viene fornito agli utenti un servizio di memorizzazione su cloud, in maniera da avere tutte le informazioni immediatamente disponibili da qualunque dispositivo ed in qualunque posto. 

 

Housing di risorse computazionali

Il data center ReCaS Bari può ospitare al suo interno risorse computazionali di terzi.

In questo modo l'utente potrà sfruttare l'infrastruttura del data center, come per esempio il sistema di UPS e il generatore ausiliario per assicurarsi la continuità dell'alimentazione elettrica anche in caso di black-out, il sistema di condizionamento e la sua manutenzione, di supervisione e di allarmistica centralizzato, i collegamenti di rete e volendo il controllo da parte degli operatori di ReCaS sulle risorse ospitate.

L'utente potrà accedere alle proprie risorse via rete ma non dovrà sobbarcarsi il compito di realizzare e sostenere la gestione dell'infrastruttura  necessaria per mantenere in esercizio le sue risorse computazionali.  Con la presenza all'interno di ReCaS potrà sfruttare anche altri servizi offerti dal data center come quello di back-up e archiviazione dati.