HiPer4All@HSOS
High Performance Computing Hochschule Osnabrück
Hardware
- Compute:
- 3x Nvidia DGX A100 (8x GPU)
- 2x Dell PowerEdge XE8545 (4x GPU)
- 7x Dell PowerEdge R7525 (2x GPU)
- Login:
- 2x Dell PowerEdge R6525
- Storage:
- 2x Dell PowerEdge R7525
- 1x Dell EMC ME4024 Storage-Array
- 2x Dell EMC ME4084 Storage-Array
- 4x Dell EMC Isilon F800
- Netzwerk:
- Switch Mellanox QM8700 (Infiniband)
- Switch Dell EMC S5224F-ON (Außenanbindung)
- Switch Dell Networking S3048-ON (Management-Netz)
- Prozessoren (CPUs):
- Rechenleistung: 1664 Cores, ~158 TFlop/s (float32-Genauigkeit, peak – theoretisch)
- Arbeitsspeicher (CPU-RAM): ~70,08 TB
- Akzeleratoren (GPUs):
- Rechenleistung: 317952 Cores, ~14,35 PFlop/s (float32-Genauigkeit, peak – theoretisch)
- Arbeitsspeicher (GPU-RAM): ~3,12 TB
- Speicherkapazität (Gesamt):
- HDD: 1,19 PB
- SSD: 139,2 TB
- Grafikkarten:
- 46x Nvidia A100 Tensor Core GPU
- Infiniband: Datenaustausch von Knoten und schnellem Speichersystem
- Außenanbindung: Zugriff auf den HPC-Cluster für HPC-Nutzer
- Management-Netz: Verwaltung des HPC-Clusters durch HPC-Admins
Software
- Ubuntu 22.04.1 (LTS)
Der Ressourcenmanager Slurm wird für die Verwaltung und Zuweisung der Ressourcen (z. B. Rechenknoten, Arbeitsspeicher, Speicher) des HPC-Clusters verwendet.
Der HPC-Cluster umfasst eine Reihe von Compilern und Bibliotheken, die für die Erstellung und Ausführung von Anwendungen auf dem Cluster verwendet werden.:
- ...
Compilern: z.B. GCC, Intel
Bibliotheken: z.B. OpenMPI, OpenMP
Der HPC-Cluster wird eine breite Palette von Anwendungen und Tools enthalten, die für Aufgaben wie Datenanalyse, maschinelles Lernen und Deep-Learning verwendet werden. Beispiele hierfür sind:
- R
- Python
- TensorFlow
- Matlab
- Jupyter-Hub
Der HPC-Cluster umfasst Tools zur Überwachung der Leistung und Nutzung des Clusters sowie Tools zur Verwaltung und Konfiguration des Clusters. Beispiele hierfür sind:
- ...
z.B. Ganglia, Nagios und Ansible.
HPC-Partitionen
Das Cluster besteht grundsätzlich aus mehreren Partitionen:
Batchsystem: Slurm
Virtualisierte Applikationen: Proxmox und Jupyter-Hub, Matlab, ...
Dedizierte Knoten: Proxmox und Bare Metal
Speichersystem
Speicherkapazitäten:
- HDD: ~672 TB
- SSD: ~46,08 TB
Speicherkapazitäten:
- HDD: ~384 TB
Speicherkapazitäten:
- HDD: ~136,08 TB
- SSD: ~93,12 TB