banner
Nachrichtenzentrum
Zuverlässige Nachverfolgung nach dem Verkauf

Samsung Processing in der Speichertechnologie bei Hot Chips 2023

Aug 09, 2023

Auf der Hot Chips 2023 (35) spricht Samsung mit neuen Forschungsergebnissen und einer neuen Wendung erneut über sein Processing-in-Memory (PIM). Wir haben dies bereits früher behandelt, zum Beispiel in unseren Hot Chips 33 Samsung HBM2-PIM und Aquabolt-XL. Nun zeigt Samsung dies im Kontext der KI.

Da diese live aus dem Auditorium stattfinden, entschuldigen Sie bitte Tippfehler. Hot Chips ist ein verrücktes Tempo.

Einer der größten Kostenfaktoren bei der Datenverarbeitung ist das Verschieben von Daten von verschiedenen Speicher- und Arbeitsspeicherorten zu den eigentlichen Rechenmaschinen.

Derzeit versuchen Unternehmen, mehr Spuren oder Kanäle für verschiedene Speichertypen hinzuzufügen. Das hat seine Grenzen.

Samsung diskutiert über CXL. CXL hilft, weil es Dinge wie die Neuverwendung von Kabeln für PCIe ermöglicht, um mehr Speicherbandbreite bereitzustellen. Wir werden in Zukunft auf STH mehr über CXL-Typ-3-Geräte diskutieren und haben sie bereits einige Male behandelt.

Samsung diskutiert über GPT-Engpässe.

Samsung hat die rechen- und speichergebundenen Workloads von GPT profiliert.

Hier erfahren Sie etwas mehr über die Profilierungsarbeit im Hinblick auf Auslastung und Ausführungszeit.

Samsung zeigt, wie Teile der Rechenpipeline auf Processing-in-Memory-Module (PIM) verlagert werden können.

Durch die Verarbeitung im Speichermodul anstelle des Beschleunigers werden Datenbewegungen eingespart, wodurch der Stromverbrauch und die Verbindungskosten gesenkt werden.

Während SK hynix bei seiner Lösung über GDDR6 sprach, zeigt Samsung seinen Speicher mit hoher Bandbreite HBM-PIM. Wir werden HBM in der nächsten Woche oder so auf STH auf Intel Xeon MAX-CPUs zeigen, aber dabei wird dieser neue Speichertyp nicht verwendet.

Anscheinend hatten Samsung und AMD MI100 mit HBM-PIM statt nur Standard-PIM, sodass ein Cluster aufgebaut werden konnte, der sich wie ein 12-Knoten-8-Beschleuniger-Cluster anhört, um den neuen Speicher auszuprobieren.

So nutzt das T5-MoE-Modell HBM-PIM im Cluster.

Hier sind die Leistungs- und Energieeffizienzgewinne.

Ein großer Teil davon ist auch, wie man die PIM-Module dazu bringt, nützliche Arbeit zu leisten. Dies erfordert Softwarearbeit zur Programmierung und Nutzung der PIM-Module.

Samsung hofft, dies in Standard-Programmiermodule integrieren zu können.

Hier ist der zukünftige Zustand von OneMCC für speichergekoppeltes Computing, aber das klingt eher nach einem zukünftigen als nach einem aktuellen Zustand.

Es sieht so aus, als würde Samsung nicht nur das HBM-PIM, sondern auch ein LPDDR-PIM präsentieren. Wie alles heutzutage braucht es die Bezeichnung „Generative KI“.

Dies scheint eher ein Konzept zu sein als das HBM-PIM, das auf AMD MI100 in einem Cluster verwendet wird.

Dieses LPDDR-PIM verfügt nur über eine interne Bandbreite von 102,4 GB/s, aber die Idee dahinter ist, dass die Speicherung der Rechenleistung auf dem Speichermodul einen geringeren Stromverbrauch bedeutet, da die Daten nicht zurück an die CPU oder xPU übertragen werden müssen.

Hier ist die Architektur mit den PIM-Bänken und DRAM-Bänken auf dem Modul.

So sieht die Leistungs- und Leistungsanalyse der möglichen LP5-PIM-Module aus.

Wenn HBM-PIM und LPDDR-PIM nicht ausreichen, erwägt Samsung, die Rechenleistung auf CXL-Module im PNM-CXL zu übertragen.

Die Idee dabei ist, nicht nur Speicher auf CXL-Typ-3-Module zu legen. Stattdessen schlägt Samsung vor, Rechenleistung auf das CXL-Modul zu übertragen. Dies kann entweder durch Hinzufügen eines Rechenelements zum CXL-Modul und Verwendung von Standardspeicher oder durch Verwendung von PIM auf den Modulen und einem eher standardmäßigen CXL-Controller erfolgen.

Natürlich zeigen wir auf der GPT-Seite, wie dies der generativen KI hilft.

Samsung hat eine 512-GB-CXL-PNM-Karte mit einer Bandbreite von bis zu 1,1 TB/s im Angebot.

Hier ist der von Samsung vorgeschlagene CXL-PNM-Software-Stack.

Hier sind die erwarteten Energieeinsparungen und der erwartete Durchsatz für große LLM-Workloads. CXL wird normalerweise über Kabel übertragen, die auch für PCIe verwendet werden, daher sind die Energiekosten für die Datenübertragung sehr hoch. Dadurch ergeben sich große Vorteile, wenn diese Datenübertragung vermieden werden kann.

Samsung konzentriert sich auch auf die Reduzierung der Emissionen als Ergebnis des oben Gesagten.

Google hat heute einen großen Vortrag über CO2-Emissionen beim KI-Computing gehalten. Wir planen, darüber später in dieser Woche auf STH zu berichten.

Samsung treibt PIM schon seit Jahren voran, aber PIM/PNM scheint sich von einem reinen Forschungskonzept zu einem Unternehmen zu entwickeln, das es tatsächlich in Produktion bringen möchte. Hoffentlich werden wir in Zukunft noch mehr davon zu sehen bekommen. Das CXL-PNM könnte sich als geeigneter Bereich für diese Art von Rechenleistung erweisen.