Künstliche Intelligenz und ihr Einfluss auf Rechenzentren | Corning

We use cookies to ensure the best experience on our website.
View Cookie Policy
_self
Accept Cookie Policy
Change My Settings
ESSENTIAL COOKIES
Required for the site to function.
PREFERENCE AND ANALYTICS COOKIES
Augment your site experience.
SOCIAL AND MARKETING COOKIES
Lets Corning work with partners to enable social features and marketing messages.
ALWAYS ON
ON
OFF

KI und Rechenzentren: Kommunikation in Ost-West-Richtung

KI und Rechenzentren: Kommunikation in Ost-West-Richtung

Künstliche Intelligenz und maschinelles Lernen sind auf dem Vormarsch. Im Gepäck haben sie nicht nur viele Chancen für Unternehmen – sondern auch eine ganze Reihe von Anforderungen an Rechenzentren, denn KI-Vorgänge arbeiten mit enormen Datenmengen und bringen so manches System an seine Leistungsgrenzen. Deshalb ist ein Umdenken bei Planung der Rechenzentrumsarchitektur notwendig.

Autor:  Anthony Robinson, Global Marketing Applications Manager für Rechenzentren, Corning Optical Communications

KI ist längst ein Bestandteil unseres Alltags geworden: Ohne groß nachzudenken, fragen wir das Smartphone nach dem Wetter, lassen virtuelle Assistenten die Lieblingsmusik spielen und fragen ChatBots nach Informationen. Auch abseits des privaten Umfeldes wird auf KI gesetzt: für schnelle Übersetzungen, zur Gesichtserkennung, bei der Diagnose von Krankheiten oder im Kampf gegen den Drogenhandel. Und die Bedeutung von KI wird wachsen – Gartner sagt voraus, dass das Geschäft mit KI bis 2022 einen Wert von 3,9 Billionen US-Dollar erreicht haben wird. Diese Entwicklung setzt riesige Datenströme voraus und produziert sie selbst. Für Rechenzentren, die Knotenpunkte der digitalen Welt, bleibt das nicht ohne Folgen.

KI kann Energiekosten im Rechenzentrum senken

Wie der Mensch können auch Rechenzentren von KI – oder genauer gesagt maschinellem Lernen (ML) – profitieren. Google-Selbsttests aus dem Jahr 2014 zeigten, dass sich der Stromverbrauch in Rechenzentren mit ML optimieren lässt. Am Teststandort konnte der Energieverbrauch für die Kühlung um beeindruckende 40 Prozent verringert werden. Die sogenannte Power Usage Effectiveness (PUE), die angibt wie effizient Rechenzentren Energie nutzen, nahm in Folge dessen einen Allzeit-Bestwert an. Google setzt dieses Verfahren inzwischen auch an anderen Standorten erfolgreich ein und es dürfte nur eine Frage der Zeit sein, bis andere Technologiekonzerne folgen.

KI hat also definitiv Vorteile für Rechenzentren – aber die Datenströme stellen eine enorme Herausforderung dar. So werden allein für das Training des Chinesisch-Spracherkennungs-Modells von Baidu vier Terabyte Trainingsdaten und gleichzeitig 20 Exaflops Rechenleistung benötigt.

Server-Kommunikation muss auch in Ost-West-Richtung stattfinden

Man muss kein Hellseher sein, um zu wissen, dass die Datenmenge mit jedem weiteren KI-gestützten Modell wachsen wird und dies die Anforderungen an die Rechenzentrumsarchitektur verändert. So wäre es zwar möglich, ML-Modelle auf einem Rechner laufen zu lassen, aber in der Regel wird das immense Datenaufkommen auf mehrere Einheiten verteilt. Dabei müssen Latenzen oder Störungen möglichst vermieden werden und die Bandbreite, mit der die verteilten Instanzen kommunizieren, muss ausreichend groß sein. Herkömmliche Architekturen, die auf verschiedenen Layern basieren, können diesen Anforderungen nicht standhalten. Traditionelle 3-Tier-Netzwerke nutzen Core, Aggregat und Edge Switching, um die verschiedenen Server innerhalb eines Rechenzentrums zu verbinden. Dieser Inter-Server-Traffic wird dabei in Nord-Süd-Richtung übertragen. Benötigte man in der Vergangenheit mehr Kapazität, konnte man einfach mit mehreren Switches und weiteren Kabeln aufstocken, die Kommunikation verlief wie gehabt in Nord-Süd-Richtung. Doch der veränderte Datenfluss im Rechenzentrum – auch bedingt durch die zunehmende Virtualisierung und die schon beschriebenen Anforderungen, die KI und ML ins Spiel bringen, gewinnen sogenannte 2-Tier-Spine-Leaf-Architekturen an Relevanz.

Vorteile einer 2-Tier-Spine-Leaf-Architektur

In dieser Topologie kommunizieren die Server in Ost-West-Richtung miteinander. Würde man versuchen, diesen Datenfluss in einem dreischichtigen Rechenzentrum zu verarbeiten, käme es selbst mit schnelleren Switches früher oder später zum Datenstau. Verhängnisvoll für jedes ML-basierte Modell.

In einer Spine-Leaf-Architektur werden Aggregat und Switches miteinander verbunden, so dass eine zweischichtige Topologie entsteht, die horizontal skaliert. Durch diese Anordnung lässt sich das Verhalten der Anwendungen besser vorhersagen und managen. Außerdem ist das Rechenzentrum in der Lage, alle Verbindungen zwischen Spine und Leaf flexibel zu nutzen. Wächst der Netzwerkverkehr, passt sich das Rechenzentrum einfach an. Neben der Topologie des Rechenzentrums, spielt auch die Verkabelung eine wichtige Rolle.

Verkabelung – Singlemode oder Multiplex?

Glasfaserkabel sind bereits der de facto Standard für die Datenübertragung, da sie herkömmlichen Kupferkabeln hinsichtlich Geschwindigkeit und Dichte weit überlegen sind. Doch welche Technologie kann die gestiegenen Anforderungen durch KI am besten bewältigen?

Seit das Institute of Electrical and Electronics Engineers (IEEE) im Jahr 2010 Übertragungsraten von 40G und 100G zugelassen hat, existiert eine Vielzahl konkurrierender Lösungen, die es den Verantwortlichen nicht immer leichtmacht. Was früher eine einfache Entscheidung zwischen Short und Long Reach (SR und LR Transceiver) war, umfasst heute viel mehr Optionen: Rechenzentrumsverantwortliche können einerseits Duplex-Technologien unter Verwendung von standardgenehmigten oder proprietären, nicht interoperablen WDM-Techniken und nutzen. Die Wavelength-Division-Multiplexing-Techniken ermöglichen die Mehrfachnutzung von Glasfaserleitung für die Übertragung mit mehreren Stationen durch die Anwendung verschiedener Wellenlängen bzw. die Aufsplittung des Lichtes in verschiedene Farben. Andererseits stehen ihnen auch Multi-Source-Vereinbarungen (MSAs) und Techniken für eine parallel-optische Übertragung mit acht Fasern (vier für die Übertragung, vier für den Empfang) oder 20 Fasern (10 für die Übertragung, 10 für den Empfang) zur Verfügung. Alle Varianten haben Vor-und Nachteile. Vor dem Hintergrund der wachsenden ML-Rechenmodelle haben Singlemode-Fasern mit parallel-optischer Übertragung jedoch die Nase vorn.

Drei Gründe für Singlemode-Fasern und parallel-optische Übertragung

This is where fiber plays such a pivotal role in ensuring your picture or video of that special (or stupid) moment is broadcast to the whole world to see, share, and comment. Fiber has become the de-facto transmission media across our data center infrastructures thanks to its high speed and ultra-high-density capabilities compared to its copper cousins. As we migrate to higher network speeds we also introduce a whole new complexity into the mix – which technology to adopt?

Traditional 3-tier networks used core, aggregate and edge switching to connect the different servers within the data center where inter-server traffic travels in a North-South direction through the active devices to talk with each other. Now however, and greatly thanks to the high computational requirements and inter-dependency that AI and ML bring to the game, more of these networks are implemented using a 2-tier spine-and-leaf network, where servers talk to each other in an East-West direction due to the ultra-low latency demanded by production and training networks.

Since the IEEE approval of 40G and 100G back in 2010, there have been a number of competing proprietary solutions which have somewhat clouded the judgment of users who are not certain which path to follow. To explain, before 40G and the others we had SR, or short reach, for multimode and LR, or long reach, for single-mode. Both used a single pair of fibers to transmit a signal between two devices. It didn’t matter whose equipment you used or which transceiver was installed in that device, it was a simple data transaction over two fibers.

Der Hauptvorteil der parallel-optischen Übertragung mit Singlemode-Fasern liegt in der Flexibilität: Rechenzentrums-Architekten haben beispielsweise die Möglichkeit, einen 40G-Hochgeschwindigkeits-Switchport in vier 10G-Serverports zu zerlegen. Dieses Verfahren bietet große Skalierbarkeit, da so auch die Anzahl der Gehäuse und Höheneinheiten im Netzwerkschrank deutlich reduziert werden kann.

Diese Tatsache wirkt sich positiv auf die Kosten aus: Die Stromkosten für den Rechenzentrumsbetrieb lassen sich um bis zu 30 Prozent senken und auch der Platzbedarf verringert sich merklich. Zudem dominieren parallel-optische Lösungen den Markt, daher sind sie günstiger und schneller verfügbar als WDM-Lösungen. Sie benötigen keine Wellenlängenmultiplexer und unterstützen zudem geringere Distanzen als die WDM-Lösungen für 2-Kilometer und 10-Kilometer. Kostenintensive Zusatzanschaffungen von Komponenten, die die Laser kühlen, entfallen daher. Auch wenn die bisweilen Fußballfeld-großen Serverfarmen vermuten lassen, dass die Distanzen immer größer werden, zeigen Analysen, dass selbst dort die durchschnittliche Distanz 165 Meter noch nicht überschritten hat, so dass der Einsatz von parallel-optischen Lösungen sich auch im Singlemode Bereich lohnt.

Auch die einfache Migration spricht für diese Variante: Die Technologie-Roadmaps der großen Switch- und Transceiver-Hersteller zeigen, dass ihre Kunden einfach auf die nächste Stufe der Datenübertragung migrieren können, wenn diese verfügbar ist, ohne die Glasfaserinfrastruktur auszutauschen. Bei einer zweifaser-basierten Infrastruktur hingegen können sie nicht sicher sein, ob eine entsprechende WDM-Optik bereits verfügbar ist, wenn sie auf 100G oder höhere Geschwindigkeiten migrieren möchten. Businesschancen, die an die Leistungsfähigkeit des Rechenzentrums geknüpft sind, ziehen dann vielleicht ungenutzt vorüber.

Zusammengefasst lässt sich festhalten: KI hat das Potential, unsere Welt nachhaltig zu verändern – aber ohne entsprechende Rechenzentren werden sich viele Visionen oder digitale Services nicht umsetzen lassen. Ein engmaschiges Glasfasernetz, verbunden mit ausreichender Bandbreite und Kommunikation in Ost-West-Richtung in einer 2-Tier-Spine-Leaf-Architektur stellen eine wichtige Grundlage für das zukunftsfähige Rechenzentrums-Design dar. Singlemode-Fasern und parallel-optische Übertragung bieten in einem KI-Umfeld die besten Möglichkeiten.