Linuxcluster: Hardware

Hardwarekonfiguration

Das HPC-Cluster am Rechenzentrum besteht aus 136 Rechenknoten, mehreren Loginknoten sowie einem parallelem Storage-System mit 300TB Speicherplatz. Insgesamt stehen für rechenintensive Anwendungen rund 8000 CPU-Cores, einige GPUs und ca. 70 TByte RAM zur Verfügung. Das HPC-Cluster verfügt über mehrere Login-Knoten. Einzelne Login-Knoten können aus Wartungsgründen zeitweise nicht erreichbar sein. Sofern Sie keinen besonderen Anforderungen an die Hard- oder Softwareausstattung des Login-Knotens haben, bietet sich der Alias hpclogin.rz.tuhh.de an.

Knoten	Cores	CPU Typ	RAM	Empfohlene Nutzung
hpc2.rz.tuhh.de	2× 16	2× AMD Epyc 9124	384 GB	Batchjobs managen, Datentransfer, Software bauen, Pre- und Postprocessing, kurze Testläufe
hpc3.rz.tuhh.de	2× 16	2× AMD Epyc 9124	384 GB	Batchjobs managen, Datentransfer, Software bauen, Pre- und Postprocessing, kurze Testläufe
hpc4.rz.tuhh.de	2× 10	2× Intel Xeon E5-2660v3	128 GB	Batchjobs managen, Datentransfer, Software bauen, Pre- und Postprocessing, kurze Testläufe
hpc5.rz.tuhh.de	2× 10	2× Intel Xeon E5-2660v3	128 GB	Batchjobs managen, Datentransfer, Software bauen, Pre- und Postprocessing, kurze Testläufe

Rechenknoten

Knoten	Cores	CPU Typ	RAM	Bemerkung
g[209-216]	2× 14	2× Intel E5-2680v4	128 GB
g[217-224]	2× 16	2× Intel Xeon Gold 6130	192 GB
g[225-228]	2× 24	2× Intel Xeon Gold 5318Y	512 GB
n[001-056]	2× 32	2× AMD Epyc 9354	384 GB
n[057-112]	2× 32	2× AMD Epyc 9354	768 GB
u[008-009]	2× 36	2× Xeon Platinum 8352V	512 GB	Mit je vier NVidia Tesla A100 (je 80GB Memory)
u[010-011]	2× 32	2× AMD Epyc 9334	768 GB	Mit je vier NVidia Tesla H100 (je 80GB Memory)
u012	2× 64	2× AMD Epyc 9535	1536 GB	Mit vier NVidia Tesla H200 inkl. NVLINK Bridge (je 141GB Memory)

Software

Betriebssystem AlmaLinux 8
Batchsystem SLURM
Softwareverwaltung mit dem Module-Konzept.

Storage

Das HPC-Cluster verfügt über mehrere Speicherklassen für verschiedene Einsatzzwecke.

	HOME	WORK	SCRATCH	PERM
Zugriff über die Umgebungsvariable	$HOME	$WORK	$SCRATCH	$PERM
eingehängt unter	/fibus	/work	/usertemp	/perm
lokales / Netzwerkdateisystem	Netzwerkdateisystem (NFS)	Netzwerkdateisystem (Lustre)	lokales Dateisystem	Netzwerkdateisystem (NFS)
Einsatzzweck	Softwareinstallationen, Skripte, kleinere Daten die gutes Backup benötigen	I/O-intensive Daten, Pre- und Postprocessing	I/O-intensive Daten während der Simulation	Daten mit mittlerer Lebensdauer und niedrigem I/O
Default Quote	20 GB	5 TB / 10 Mio. Inodes	keine, begrenzt durch Größe des lokalen Datenträgers	1 TB, kann bei Bedarf erhöht werden
Datenlebensdauer	bis zum Ende der HPC-Zugangsberechtigung	2 Monate	bis zum Reboot des Servers	bis zum Ende der HPC-Zugangsberechtigung
Besonderheiten				Daten können nach Freigabe mit anderen Nutzern geteilt werden. Auf den Rechenknoten nur Lesezugriff.
Snapshots	ja, unter `~/.snapshot/`	nein	nein	ja, unter `/perm/.zfs/snapshot/`