Linuxcluster: Hardware

Hardwarekonfiguration

Das HPC-Cluster am Rechenzentrum besteht aus 241 Rechenknoten, mehreren Loginknoten sowie einem parallelem Storage-System mit 350TB Speicherplatz. Insgesamt stehen für rechenintensive Anwendungen 6600 CPU-Cores, einige GPUs und rund 32TB RAM zur Verfügung.

Loginknoten

Das HPC-Cluster verfügt über mehrere Login-Knoten. Einzelne Login-Knoten können aus Wartungsgründen zeitweise nicht erreichbar sein. Sofern Sie keinen besonderen Anforderungen an die Hard- oder Softwareausstattung des Login-Knotens haben, bietet sich der Alias hpclogin.rz.tuhh.de an.
Knoten Cores CPU Typ RAM Empfohlene Nutzung
hpc1.rz.tuhh.de 2 (virtuell) 4 GB Batchjobs managen, Datentransfer
hpc4.rz.tuhh.de 2× 10 2× E5-2660v3 128 GB Batchjobs managen, Datentransfer, Software bauen,
Pre- und Postprocessing, kurze Testläufe
hpc5.rz.tuhh.de 2× 10 2× E5-2660v3 128 GB Batchjobs managen, Datentransfer, Software bauen,
Pre- und Postprocessing, kurze Testläufe

Rechenknoten

Knoten Cores CPU Typ RAM Bemerkung
d[041-044] 2× 8 2× E5-2670 64 GB
d[045-047] 2× 10 2× E5-2670v2 64 GB
g[001-016,033-048,081-086] 2× 12 2× E5-2680v3 128 GB
g[017-032,065-080] 2× 12 2× E5-2680v3 256 GB
g[087-174,176-216] 2× 14 2× E5-2680v4 128 GB
g[217-224] 2× 16 2× Xeon Gold 6130 192 GB
g[225-228] 2× 24 2× Xeon Gold 5318Y 512 GB
u003 2× 6 2× E5-2620v3 64 GB Mit logisch vier NVidia Tesla K80
(je 12GB Memory)
u[004-006] 2× 8 2× E5-2620v4 128 GB Mit logisch acht NVidia Tesla K80
(je 12GB Memory)
u007 2× 26 2× Xeon Gold 6230R 384 GB Mit vier NVidia Tesla V100
(je 32GB Memory)
u[008-009] 2× 36 2× Xeon Platinum 8352V 512 GB Mit vier NVidia Tesla A100
(je 80GB Memory)
 

Software

  • Betriebssystem RedHat Enterprise Linux (RHEL) / CentOS 7 und 8
  • Batchsystem SLURM
  • Softwareverwaltung mit dem Module-Konzept.

Storage

  • Homeverzeichnis
    • Das Homeverzeichnis wird vom zentralen Fileserver der TUHH gemountet und ist auch auf den RZ-Poolrechnern verfügbar. Für das Homeverzeichnis steht ein Backup und Snapshots zur Verfügung.
    • Standardquotas: 10 GByte (können bei Bedarf erhöht werden).
    • Langsamer Speicher für wichtige Daten, die gesichert werden müssen.
  • Lokale Festplatten
    • Jeder Knoten hat eigene Festplatten. Unterhalb des Pfades /usertemp findet jeder Nutzer sein persönliches Verzeichnis /usertemp/<gruppenbezeichnung>/<benutzerkennung>, z.B. /usertemp/rzt/rztkm.
    • Der Pfad /usertemp lautet auf allen Knoten gleich, zeigt aber jeweils auf die lokale Festplatte. Jeder Knoten sieht nur seinen eigenen /usertemp-Bereich.
    • Daten im /usertemp-Bereich werden nicht im Backup gesichert und werden nach 14 Tagen Inaktivität sowie nach einem Reboot des Knotens gelöscht.
    • Als schneller Speicher für Arbeitsverzeichnisse.
    • Ein Remote-Zugriff auf die lokalen Festplatten der Rechenknoten ist aus dem Dateisystem der Login-Knoten möglich. Die lokalen Festplatten werden bei Bedarf gemountet unterhalb von /remut, z.B. für den Knoten g001:

      ls -l /remut/g001

  • paralleles BeeGFS-Netzwerkdateisystem
    • Das HPC-Cluster verfügt über ein Storage-System, auf das die Login- und Rechenknoten über das parallele Dateisystem BeeGFS zugreifen.
    • Unterhalb von /work findet jeder Nutzer sein persönliches Verzeichnis /work/<gruppenbezeichnung>/<benutzerkennung> , z.B. /work/rzt/rztkm.
    • Das parallele Dateisystem ist für temporäre Daten während der Simulation gedacht. Bei Speicherknappheit werden Daten älter als 90 Tage automatisch vom System gelöscht.
    • Sichtbar im gesamten Cluster.
    • Kompromiss zwischen dem Homeverzeichnis (überall sichtbar, sicher, langsam, quotiert) und lokaler Festplatte (nur lokal sichtbar, schnell).
    • Dieser Bereich verfügt über kein Backup - keine dauerhafte Speicherung wichtiger Daten !