Werbung
Meta hat ein neues AI Research SuperCluster (RSC) aufgebaut, welches nun eröffnet wurde. Das System besteht aktuell aus 760 DGX-A100-Servern, die jeweils acht A100-GPU-Beschleunigern einsetzen. Miteinander verbunden sind die GPUs über einen EPYC-Prozessor pro DGX-A100-Server. Aktuell kommen also bereits 6.080 A100-GPUs zum Einsatz. Derzeit gibt Meta die Rechenleistung mit 1,895 ExaFLOPS für Berechnungen mit einfacher Genauigkeit (FP32) an.
Der Aufbau des RSC begann 2020. Noch in diesem Jahr soll soll das Cluster erweitert werden. Weitere 1.240 DGX-A100-Server sollen hinzukommen, so dass hier am Ende 16.000 A100-GPUs zusammenarbeiten werden. Dann soll das System auf eine Rechenleistung von 5 ExaFLOPS kommen.
Aber rein mit der Rechenleistung der A100-GPUs ist es nicht getan, bzw. es gehört noch einiges mehr zur Infrastruktur. So sind die GPUs direkt über einen InfiniBand-Interconnect mit 200 Gbit/s miteinander verbunden. Mellanox, ein Zukauf von NVIDIA, stellt die Hardware dazu. Von Pengiun Computing kommt ein Cache-System (Altus), welches 46 PB an Kapazität bietet. Hinzu kommt ein Speichersystem von Pure Storage, welches 175 PB an Daten fassen kann. Die Daten schnell an die eigentlichen Rechenhardware zu liefern und zuvor entsprechend zu provisionieren, ist entscheidend, damit Rechencluster dieser Größe ihre Rechenleistung auch ausspielen können.
Das neue RSC ist um den Faktor 20 schneller als die bisher verwendeten Cluster, die auf NVIDIAs V100-GPUs basieren. Facebook, bzw. Meta wird das neue Cluster dazu verwenden, riesige neuronale Netze darauf zu trainieren. Diese umfassen nach Aussage des Unternehmens bis zu einer Billion Parameter und haben eine Datengröße von 1 EB (Exabyte). NVIDIA stellte bereits Modelle vor, die ähnlich groß sind und ebenfalls auf dem eigenen Supercluster Selene berechnet werden konnten.
Meta kann solche neuronalen Netze für die verschiedensten Einsatzgebiete verwenden. So können Beiträge von der einen in die andere Sprache übersetzt werden. Aber auch der Aufbau einer Timeline in Facebook oder Instagram geschieht nicht mehr durch eine einfache Sortierung nach Datum, sondern es werden andere Relevanzkriterien beachtet, die zuvor berechnet werden.
Meta hat für den Aufbau des RSC fast ausschließlich proprietäre Hardware zum Einsatz gebracht. Dabei arbeitet man seit zehn Jahren mit an Spezifikationen für Hardware des Open Compute Project (OCP). Offenbar kommt jedoch auch hier einer der Vorteile zum Tragen, von denen NVIDIA seit Jahren spricht: Die DGX-Systeme lassen sich nahezu beliebig skalieren und ermöglichen den schnellen und einfachen Aufbau eines Supercomputers. Hinzu kommt, dass Mellanox inzwischen zu NVIDIA gehört und in diesem Bereich schon länger mit Pure Storage zusammenarbeitet. Dies macht sich Meta offenbar zu Nutze.