Linuxcluster: Hardware
Hardwarekonfiguration
Das HPC-Cluster am Rechenzentrum besteht aus 200 Rechenknoten, mehreren Loginknoten sowie einem parallelem Storage-System mit 300TB Speicherplatz. Insgesamt stehen für rechenintensive Anwendungen rund 8700 CPU-Cores, einige GPUs und 50 TByte RAM zur Verfügung. Loginknoten
Das HPC-Cluster verfügt über mehrere Login-Knoten. Einzelne Login-Knoten können aus Wartungsgründen zeitweise nicht erreichbar sein.
Sofern Sie keinen besonderen Anforderungen an die Hard- oder Softwareausstattung des Login-Knotens haben,
bietet sich der Alias hpclogin.rz.tuhh.de
an.
Knoten | Cores | CPU Typ | RAM | Empfohlene Nutzung |
---|---|---|---|---|
hpc1.rz.tuhh.de | 2 | (virtuell) | 4 GB | Batchjobs managen, Datentransfer |
hpc2.rz.tuhh.de | 2× 16 | 2× AMD Epyc 9124 | 384 GB | Batchjobs managen, Datentransfer, Software bauen, Pre- und Postprocessing, kurze Testläufe |
hpc3.rz.tuhh.de | 2× 16 | 2× AMD Epyc 9124 | 384 GB | Batchjobs managen, Datentransfer, Software bauen, Pre- und Postprocessing, kurze Testläufe |
hpc4.rz.tuhh.de | 2× 10 | 2× Intel Xeon E5-2660v3 | 128 GB | Batchjobs managen, Datentransfer, Software bauen, Pre- und Postprocessing, kurze Testläufe |
hpc5.rz.tuhh.de | 2× 10 | 2× Intel Xeon E5-2660v3 | 128 GB | Batchjobs managen, Datentransfer, Software bauen, Pre- und Postprocessing, kurze Testläufe |
Rechenknoten
Knoten | Cores | CPU Typ | RAM | Bemerkung |
---|---|---|---|---|
g[209-216] | 2× 14 | 2× Intel E5-2680v4 | 128 GB | |
g[217-224] | 2× 16 | 2× Intel Xeon Gold 6130 | 192 GB | |
g[225-228] | 2× 24 | 2× Intel Xeon Gold 5318Y | 512 GB | |
n[001-056] | 2× 32 | 2× AMD Epyc 9354 | 384 GB | |
n[057-112] | 2× 32 | 2× AMD Epyc 9354 | 768 GB | |
u[008-009] | 2× 36 | 2× Xeon Platinum 8352V | 512 GB | Mit je vier NVidia Tesla A100 (je 80GB Memory) |
u[010-011] | 2× 32 | 2× AMD Epyc 9334 | 768 GB | Mit je vier NVidia Tesla H100 (je 80GB Memory) |
Software
- Betriebssystem AlmaLinux 8
- Batchsystem SLURM
- Softwareverwaltung mit dem Module-Konzept.
Storage
- Homeverzeichnis
- Das Homeverzeichnis wird vom zentralen Fileserver der TUHH gemountet und ist auch auf den RZ-Poolrechnern verfügbar. Für das Homeverzeichnis steht ein Backup und Snapshots zur Verfügung.
- Standardquotas: 10 GByte (können bei Bedarf erhöht werden).
- Langsamer Speicher für wichtige Daten, die gesichert werden müssen.
- Lokale Festplatten
- Jeder Knoten hat eigene Festplatten. Unterhalb des Pfades /usertemp findet jeder Nutzer sein persönliches Verzeichnis /usertemp/<gruppenbezeichnung>/<benutzerkennung>, z.B. /usertemp/rzt/rztkm.
- Der Pfad /usertemp lautet auf allen Knoten gleich, zeigt aber jeweils auf die lokale Festplatte. Jeder Knoten sieht nur seinen eigenen /usertemp-Bereich.
- Daten im /usertemp-Bereich werden nicht im Backup gesichert und werden nach 14 Tagen Inaktivität sowie nach einem Reboot des Knotens gelöscht.
- Als schneller Speicher für Arbeitsverzeichnisse.
- paralleles Lustre-Netzwerkdateisystem
- Das HPC-Cluster verfügt über ein Storage-System, auf das die Login- und Rechenknoten über das parallele Dateisystem Lustre zugreifen.
- Unterhalb von /work findet jeder Nutzer sein persönliches Verzeichnis /work/<gruppenbezeichnung>/<benutzerkennung> , z.B. /work/rzt/rztkm.
- Das parallele Dateisystem ist für temporäre Daten während der Simulation gedacht. Bei Speicherknappheit werden Daten älter als 90 Tage automatisch vom System gelöscht.
- Sichtbar im gesamten Cluster.
- Kompromiss zwischen dem Homeverzeichnis (überall sichtbar, sicher, langsam, quotiert) und lokaler Festplatte (nur lokal sichtbar, schnell).
- Dieser Bereich verfügt über kein Backup - keine dauerhafte Speicherung wichtiger Daten !