Nvidia kündigt mit Tesla P100 neuen GPU-Beschleuniger für PCIe-Server an

Nvidia hat mit dem Tesla P100 einen GPU-Beschleuniger für High Performance Computing vorgestellt, der im PCIe-Standardformat zu aktuellen GPU-beschleunigten Servern kompatibel ist. Laut Hersteller soll ein Tesla-P100-Knoten die Leistung von 32 CPU-basierten Knoten erzielen.

Tesla P100, der neue GPU-Beschleuniger für PCIe-Server, den Nvidia jetzt angekündigt hat, soll Anwendungen für High Performance Computing im Vergleich zu herkömmlichen CPU-basierten Rechenknoten um das mehr als 30-Fache beschleunigen. Das Unternehmen verspricht außerdem um bis zu 70 Prozent sinkende Anschaffungskosten, da ein einzelner “Superknoten” mit acht Tesla P100 den Durchsatz von mehr als 32 CPU-basierten Rechenknoten erreichen soll.

Der Tesla P100 GPU-Beschleuniger soll ab dem vierten Quartal verfügbar sein. Unter anderem beabsichtigen die Serverhersteller Cray, Dell, Hewlett Packard Enterprise, IBM und SGI eine Integration in ihre Produkte.

Nvidia stellt den Beschleuniger im PCIe-Standardformat zur Verfügung, womit er laut Hersteller mit aktuellen GPU-beschleunigten Servern kompatibel ist. Konzipiert ist er in erster Linie für rechenintensive Anwendungen wie künstliche Intelligenz und Deep Learning sowie für High-Performance-Computing-Rechenzentren.

“Tesla P100-Beschleuniger bieten neue Ebenen an Leistung und Effizienz, um einige der wichtigsten Rechenherausforderungen unserer Zeit meistern zu können”, wird Thomas Schulthess, Professor für Computational Physics an der ETH Zürich und Direktor des Swiss National Supercomputing Center, in einer Pressemitteilung zitiert. “Das Upgrade von 4.500 GPU-beschleunigten Rechenknoten in Piz Daint zu den Tesla P100-GPUs wird die Leistung des Systems mehr als verdoppeln und Durchbrüche in den unterschiedlichsten Bereichen wie Kosmologie, Materialwissenschaften, Seismologie und Klimawissenschaften ermöglichen.”

Der Hersteller gibt die Performance des Beschleunigers mit 4,7 Teraflops bei Double-Precision-Berechnungen und 9,3 Teraflops bei Single-Precision-Berechnungen an. Im Vergleich zu Maxwell-Architektur erhöht sich die Speicherbandbreite um 720 GByte pro Sekunde. Erreicht wird diese Steigerung durch ein neues Memory-Design namens Chip on Wafer on Substrate (CoWoS).

Paralleles Programmieren soll indes durch die neu entwickelte Page Migration Engine vereinfacht werden. Da die Technik die Verwaltung von Datenbewegungen übernimmt, sollen sich Entwickler künftig auf die Leistungsoptimierung konzentrieren können. Außerdem ist es möglich, Anwendungen mit der Unterstützung von virtuellem Memory-Paging über die physische Memory-Grenze der GPU hinaus zu betreiben. Die neue, sogenannte vereinte Memory-Technologie gibt Entwicklern einen vollständigen Überblick über den gesamten Memory-Speicher eines Knotens.

[Mit Material von Stefan Beiersmann, ZDNet.de]

Tipp: Wie gut kennen Sie die Chefs der IT-Firmen? Testen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.

Lesen Sie auch : Wie ein digitaler Zwilling die Effizienz im Rechenzentrum steigert