Linuxcluster: Hardware
Hardwarekonfiguration
Das HPC-Cluster am Rechenzentrum besteht aus 241 Rechenknoten, mehreren Loginknoten sowie einem parallelem Storage-System mit 350TB Speicherplatz. Insgesamt stehen für rechenintensive Anwendungen 6600 CPU-Cores, einige GPUs und rund 32TB RAM zur Verfügung. Loginknoten
Das HPC-Cluster verfügt über mehrere Login-Knoten. Einzelne Login-Knoten können aus Wartungsgründen zeitweise nicht erreichbar sein.
Sofern Sie keinen besonderen Anforderungen an die Hard- oder Softwareausstattung des Login-Knotens haben,
bietet sich der Alias hpclogin.rz.tuhh.de
an.
Knoten | Cores | CPU Typ | RAM | Empfohlene Nutzung |
---|---|---|---|---|
hpc1.rz.tuhh.de | 2 | (virtuell) | 4 GB | Batchjobs managen, Datentransfer |
hpc4.rz.tuhh.de | 2× 10 | 2× E5-2660v3 | 128 GB | Batchjobs managen, Datentransfer, Software bauen, Pre- und Postprocessing, kurze Testläufe |
hpc5.rz.tuhh.de | 2× 10 | 2× E5-2660v3 | 128 GB | Batchjobs managen, Datentransfer, Software bauen, Pre- und Postprocessing, kurze Testläufe |
Rechenknoten
Knoten | Cores | CPU Typ | RAM | Bemerkung |
---|---|---|---|---|
d[041-044] | 2× 8 | 2× E5-2670 | 64 GB | |
d[045-047] | 2× 10 | 2× E5-2670v2 | 64 GB | |
g[001-016,033-048,081-086] | 2× 12 | 2× E5-2680v3 | 128 GB | |
g[017-032,065-080] | 2× 12 | 2× E5-2680v3 | 256 GB | |
g[087-174,176-216] | 2× 14 | 2× E5-2680v4 | 128 GB | |
g[217-224] | 2× 16 | 2× Xeon Gold 6130 | 192 GB | |
g[225-228] | 2× 24 | 2× Xeon Gold 5318Y | 512 GB | |
u003 | 2× 6 | 2× E5-2620v3 | 64 GB | Mit logisch vier NVidia Tesla K80 (je 12GB Memory) |
u[004-006] | 2× 8 | 2× E5-2620v4 | 128 GB | Mit logisch acht NVidia Tesla K80 (je 12GB Memory) |
u007 | 2× 26 | 2× Xeon Gold 6230R | 384 GB | Mit vier NVidia Tesla V100 (je 32GB Memory) |
u[008-009] | 2× 36 | 2× Xeon Platinum 8352V | 512 GB | Mit vier NVidia Tesla A100 (je 80GB Memory) |
Software
- Betriebssystem RedHat Enterprise Linux (RHEL) / CentOS 7 und 8
- Batchsystem SLURM
- Softwareverwaltung mit dem Module-Konzept.
Storage
- Homeverzeichnis
- Das Homeverzeichnis wird vom zentralen Fileserver der TUHH gemountet und ist auch auf den RZ-Poolrechnern verfügbar. Für das Homeverzeichnis steht ein Backup und Snapshots zur Verfügung.
- Standardquotas: 10 GByte (können bei Bedarf erhöht werden).
- Langsamer Speicher für wichtige Daten, die gesichert werden müssen.
- Lokale Festplatten
- Jeder Knoten hat eigene Festplatten. Unterhalb des Pfades /usertemp findet jeder Nutzer sein persönliches Verzeichnis /usertemp/<gruppenbezeichnung>/<benutzerkennung>, z.B. /usertemp/rzt/rztkm.
- Der Pfad /usertemp lautet auf allen Knoten gleich, zeigt aber jeweils auf die lokale Festplatte. Jeder Knoten sieht nur seinen eigenen /usertemp-Bereich.
- Daten im /usertemp-Bereich werden nicht im Backup gesichert und werden nach 14 Tagen Inaktivität sowie nach einem Reboot des Knotens gelöscht.
- Als schneller Speicher für Arbeitsverzeichnisse.
- Ein Remote-Zugriff auf die lokalen Festplatten der Rechenknoten ist aus dem Dateisystem der Login-Knoten möglich. Die lokalen Festplatten werden bei Bedarf gemountet
unterhalb von /remut, z.B. für den Knoten g001:
ls -l /remut/g001
- paralleles BeeGFS-Netzwerkdateisystem
- Das HPC-Cluster verfügt über ein Storage-System, auf das die Login- und Rechenknoten über das parallele Dateisystem BeeGFS zugreifen.
- Unterhalb von /work findet jeder Nutzer sein persönliches Verzeichnis /work/<gruppenbezeichnung>/<benutzerkennung> , z.B. /work/rzt/rztkm.
- Das parallele Dateisystem ist für temporäre Daten während der Simulation gedacht. Bei Speicherknappheit werden Daten älter als 90 Tage automatisch vom System gelöscht.
- Sichtbar im gesamten Cluster.
- Kompromiss zwischen dem Homeverzeichnis (überall sichtbar, sicher, langsam, quotiert) und lokaler Festplatte (nur lokal sichtbar, schnell).
- Dieser Bereich verfügt über kein Backup - keine dauerhafte Speicherung wichtiger Daten !