Linuxcluster: Hardware

Hardwarekonfiguration

Das HPC-Cluster am Rechenzentrum besteht aus 200 Rechenknoten, mehreren Loginknoten sowie einem parallelem Storage-System mit 300TB Speicherplatz. Insgesamt stehen für rechenintensive Anwendungen rund 8700 CPU-Cores, einige GPUs und 50 TByte RAM zur Verfügung.

Loginknoten

Das HPC-Cluster verfügt über mehrere Login-Knoten. Einzelne Login-Knoten können aus Wartungsgründen zeitweise nicht erreichbar sein. Sofern Sie keinen besonderen Anforderungen an die Hard- oder Softwareausstattung des Login-Knotens haben, bietet sich der Alias hpclogin.rz.tuhh.de an.
Knoten Cores CPU Typ RAM Empfohlene Nutzung
hpc1.rz.tuhh.de 2 (virtuell) 4 GB Batchjobs managen, Datentransfer
hpc2.rz.tuhh.de 2× 16 2× AMD Epyc 9124 384 GB Batchjobs managen, Datentransfer, Software bauen,
Pre- und Postprocessing, kurze Testläufe
hpc3.rz.tuhh.de 2× 16 2× AMD Epyc 9124 384 GB Batchjobs managen, Datentransfer, Software bauen,
Pre- und Postprocessing, kurze Testläufe
hpc4.rz.tuhh.de 2× 10 2× Intel Xeon E5-2660v3 128 GB Batchjobs managen, Datentransfer, Software bauen,
Pre- und Postprocessing, kurze Testläufe
hpc5.rz.tuhh.de 2× 10 2× Intel Xeon E5-2660v3 128 GB Batchjobs managen, Datentransfer, Software bauen,
Pre- und Postprocessing, kurze Testläufe

Rechenknoten

Knoten Cores CPU Typ RAM Bemerkung
g[209-216] 2× 14 2× Intel E5-2680v4 128 GB
g[217-224] 2× 16 2× Intel Xeon Gold 6130 192 GB
g[225-228] 2× 24 2× Intel Xeon Gold 5318Y 512 GB
n[001-056] 2× 32 2× AMD Epyc 9354 384 GB
n[057-112] 2× 32 2× AMD Epyc 9354 768 GB
u[008-009] 2× 36 2× Xeon Platinum 8352V 512 GB Mit je vier NVidia Tesla A100
(je 80GB Memory)
u[010-011] 2× 32 2× AMD Epyc 9334 768 GB Mit je vier NVidia Tesla H100
(je 80GB Memory)
 

Software

Storage

  • Homeverzeichnis
    • Das Homeverzeichnis wird vom zentralen Fileserver der TUHH gemountet und ist auch auf den RZ-Poolrechnern verfügbar. Für das Homeverzeichnis steht ein Backup und Snapshots zur Verfügung.
    • Standardquotas: 10 GByte (können bei Bedarf erhöht werden).
    • Langsamer Speicher für wichtige Daten, die gesichert werden müssen.
  • Lokale Festplatten
    • Jeder Knoten hat eigene Festplatten. Unterhalb des Pfades /usertemp findet jeder Nutzer sein persönliches Verzeichnis /usertemp/<gruppenbezeichnung>/<benutzerkennung>, z.B. /usertemp/rzt/rztkm.
    • Der Pfad /usertemp lautet auf allen Knoten gleich, zeigt aber jeweils auf die lokale Festplatte. Jeder Knoten sieht nur seinen eigenen /usertemp-Bereich.
    • Daten im /usertemp-Bereich werden nicht im Backup gesichert und werden nach 14 Tagen Inaktivität sowie nach einem Reboot des Knotens gelöscht.
    • Als schneller Speicher für Arbeitsverzeichnisse.
  • paralleles Lustre-Netzwerkdateisystem
    • Das HPC-Cluster verfügt über ein Storage-System, auf das die Login- und Rechenknoten über das parallele Dateisystem Lustre zugreifen.
    • Unterhalb von /work findet jeder Nutzer sein persönliches Verzeichnis /work/<gruppenbezeichnung>/<benutzerkennung> , z.B. /work/rzt/rztkm.
    • Das parallele Dateisystem ist für temporäre Daten während der Simulation gedacht. Bei Speicherknappheit werden Daten älter als 90 Tage automatisch vom System gelöscht.
    • Sichtbar im gesamten Cluster.
    • Kompromiss zwischen dem Homeverzeichnis (überall sichtbar, sicher, langsam, quotiert) und lokaler Festplatte (nur lokal sichtbar, schnell).
    • Dieser Bereich verfügt über kein Backup - keine dauerhafte Speicherung wichtiger Daten !