KFA2 GeForce RTX 5080 1-Click OC - Test/Review (+Video)
Anfang des Jahres hat NVIDIA die neue GeForce RTX 5000er-Serie offiziell gelauncht.
Von Christoph Miklos am 28.03.2025 - 13:05 Uhr

Blackwell Architektur (5080)


Die Blackwell-Grafikarchitektur läutet NVIDIAs 4. RTX-Generation ein. Mit Blackwell trägt NVIDIA dazu bei, eine weitere Dimension hinzuzufügen, nämlich neuronales Rendering, also die Fähigkeit der GPU, eine generative KI zu nutzen, um Teile eines Frames zu erstellen. Dies unterscheidet sich von DLSS, wo ein KI-Modell verwendet wird, um Details in einem hochskalierten Frame basierend auf seinem Trainingsdatum, zeitlichen Frames und Bewegungsvektoren zu rekonstruieren. Das Herzstück der GeForce RTX 5080 Grafikkarte ist das neue 5-nm-GB203. Dieser Chip hat eine sehr ähnliche Chipgröße und Transistoranzahl wie der AD103 der vorherigen Generation, der den RTX 4080 antreibt, da beide Chips auf dem exakt gleichen Prozess basieren - TSMCs „NVIDIA 4N“ oder 5-nm-EUV mit NVIDIA-spezifischen Eigenschaften. Der GB203 misst 378 mm² Die-Fläche und verfügt über 45.6 Milliarden Transistoren (im Vergleich zu 378.6 mm² Die-Fläche und 45.9 Milliarden Transistoren des AD103). Hier enden die Ähnlichkeiten. Das GB203-Silizium ist im Wesentlichen in der gleichen Komponentenhierarchie aufgebaut wie frühere Generationen von NVIDIA-GPUs, jedoch mit einigen bemerkenswerten Änderungen. Die GPU verfügt über eine PCI-Express 5.0 x16-Hostschnittstelle. PCIe Gen 5 gibt es seit Intels 12. Generation Core „Alder Lake“ und AMDs Ryzen 7000 „Zen 4“. Die GPU ist selbstverständlich mit älteren PCIe-Generationen kompatibel. Der GB203 verfügt außerdem über die neue GDDR7-Speicherschnittstelle, die mit dieser Generation ihr Debüt feiert. Der Chip verfügt über einen 256 Bit breiten Speicherbus, was der Hälfte der Busbreite des GB202 entspricht, der den RTX 5090 antreibt. NVIDIA nutzt diesen, um 16 GB Speicher mit 30 Gbit/s Geschwindigkeit anzutreiben, was eine Speicherbandbreite von 960 GB/s ergibt, was einer Steigerung von 34 % gegenüber dem RTX 4080 und seinem 22.5 Gbit/s GDDR6X entspricht.
Die GigaThread Engine ist die Hauptlogik für die Zuweisung von Grafik-Rendering-Arbeitslasten auf dem GB203, aber es gibt eine neue Ergänzung, einen dedizierten seriellen Prozessor zur Verwaltung aller KI-Beschleunigungsressourcen auf der GPU, NVIDIA nennt diesen AMP (AI Management Processor). Weitere Komponenten auf globaler Ebene sind der Optical Flow Processor, eine Komponente, die an älteren Versionen der DLSS-Frame-Generierung und für die Videokodierung beteiligt ist; und eine aktualisierte Medienbeschleunigungs-Engine, bestehend aus zwei NVENC-Kodierungsbeschleunigern und zwei NVDEC-Dekodierungsbeschleunigern. Die neuen NVENC-Videokodierungsbeschleuniger der 9. Generation verfügen über 4:2:2 AV1- und HEVC-Kodierungsunterstützung. Der zentrale Bereich der GPU verfügt über die größte gemeinsame Komponente, den 64 MB L2-Cache, den die RTX 5080 maximal ausschöpft.
Jeder Grafikverarbeitungscluster (GPC) ist eine Unterteilung der GPU mit nahezu allen für die Grafikwiedergabe erforderlichen Komponenten. Auf dem GB203 besteht ein GPC aus 12 Streaming-Multiprozessoren (SM) in 6 Texturverarbeitungsclustern (TPCs) und einer Raster-Engine, die aus 16 ROPs besteht. Jeder SM enthält 128 CUDA-Kerne. Im Gegensatz zur Ada-Generation SM, die jeweils über 64 FP32+INT32- und 64 reine FP32-SIMD-Einheiten verfügte, bietet die neue Blackwell-Generation SM die gleichzeitige FP32+INT32-Fähigkeit auf allen 128 SIMD-Einheiten. Diese 128 CUDA-Kerne sind in vier Slices angeordnet, jeweils mit einer Registerdatei, einem Level-0-Befehlscache, einem Warp-Scheduler, zwei Sätzen von Lade-Speicher-Einheiten und einer Spezialfunktionseinheit (SFU), die einige spezielle mathematische Funktionen wie Trigonometrie, Exponenten, Logarithmen, Kehrwerte und Quadratwurzel verarbeitet. Die vier Slices teilen sich einen 128 KB großen L1-Datencache und vier TMUs. Die exotischsten Komponenten des Blackwell SM sind die vier Tensor-Kerne der 5. Generation und ein RT-Kern der 4. Generation.
Der neue Tensor-Kern der 5. Generation bietet Unterstützung für das FP4-Datenformat (1/8 Präzision) für sich schnell bewegende atomare Arbeitslasten und bietet den 32-fachen Durchsatz des allerersten Tensor-Kerns, der mit der Volta-Architektur eingeführt wurde. Im Laufe der Generationen nutzten KI-Modelle Datenformate mit geringerer Präzision und Sparsity, um die Leistung zu verbessern. Der AI Management Processor (AMP) ermöglicht gleichzeitige KI- und Grafik-Workloads auf den höchsten Ebenen der GPU, sodass er gleichzeitig Echtzeitgrafiken für ein Spiel rendern kann, während ein LLM ausgeführt wird, ohne die Leistung des anderen zu beeinträchtigen. AMP ist ein spezialisierter Hardware-Scheduler für alle KI-Beschleunigungsressourcen auf dem Silizium. Dies spielt eine entscheidende Rolle für das Funktionieren der DLSS 4-Multiframe-Generierung.
Der GB203 und der Rest der GeForce-Blackwell-GPU-Familie basieren auf genau demselben TSMC-Foundry-Knoten „NVIDIA 4N“, der tatsächlich 5 nm groß ist, wie die Ada der vorherigen Generation. Daher konzentrierte sich NVIDIA darauf, innovative neue Wege zur Verwaltung von Strom und Thermik zu finden. Dies geschieht durch eine neu gestaltete Power-Management-Engine, die auf Clock-Gating, Power-Gating und Rail-Gating der einzelnen GPCs und anderer Komponenten der obersten Ebene basiert. NVIDIA hat auch an der Geschwindigkeit gearbeitet, mit der die GPU leistungsbezogene Entscheidungen trifft.

Kommentar schreiben

Artikel auf einer Seite anzeigen