Artificial Intelligence and the Impact on Our Data Centers

Puede ser útil para descubrir nuevos niveles de eficiencia, pero el precio a pagar es un aumento masivo de la demanda de ancho de banda.

Puede ser útil para descubrir nuevos niveles de eficiencia, pero el precio a pagar es un aumento masivo de la demanda de ancho de banda.

Por Tony Robinson, Gerente de Aplicaciones de Marketing Global, Corning Optical Communications

Siempre es sorprendente cómo los cineastas son capaces de introducir conceptos que en su momento parecen tan distantes de la realidad, pero que con el tiempo pasan a formar parte de nuestro día a día. En 1990, la película El Vengador del Futuro, con Arnold Schwarzenegger, nos presentó a “Johnny Cab”, un vehículo sin conductor que los llevaba a donde quisieran. Hoy en día, la mayoría de los principales fabricantes de automóviles están invirtiendo millones para hacer que esta tecnología esté disponible para las masas. Y gracias a la escena Volver al Futuro II, en la que Marty McFly escapó de los malos en un skate flotante, nuestros hijos ahora se están estrellando contra los muebles (y entre ellos), algo similar a lo que vimos en 1989.

Fue en 1968 (que todavía podemos recordar algunos de nosotros) cuando nos presentaron a la Inteligencia Artificial (IA) con el HAL 9000, una computadora sensible a bordo de la nave espacial Discovery One en 2001: Una Odisea Espacial. HAL pudo hablar y reconocer rostros, procesar el lenguaje natural, leer los labios, apreciar el arte, interpretar comportamientos emocionales, razonar de forma automatizada y, por supuesto, el truco informático favorito de Hollywood, jugar al ajedrez.

Pase a los últimos dos años y será posible identificar rápidamente dónde la IA se ha convertido en una parte esencial de nuestra vida diaria. Puedes preguntarte a tu teléfono inteligente cómo estará el clima en tu próximo destino de viaje, tu asistente virtual puede reproducir tu música favorita y tu cuenta de redes sociales proporcionará actualizaciones de noticias y anuncios personalizados, de acuerdo con tus preferencias personales. Y sin querer ofender a las empresas de tecnología, esto es AI 101.

Pero hay mucho más detrás de escena que ayuda a mejorar e incluso salvar vidas. La traducción de idiomas, feeds de noticias, el reconocimiento facial, el diagnóstico más preciso de enfermedades complejas y el descubrimiento acelerado de fármacos son solo algunas de las aplicaciones en las que las empresas están desarrollando e implementando IA. Según Gartner, el valor del negocio derivado de la IA se estima en 3,9 billones de dólares en 2022.

Servidores atentos

Entonces, ¿cómo afecta la IA al centro de datos? Bueno, en 2014, Google implementó la IA de Deepmind (usando aprendizaje automático, una aplicación de IA) en una de sus instalaciones. ¿El resultado? Pudieron lograr consistentemente una reducción del 40% en la cantidad de energía utilizada para la refrigeración, lo que equivale a una reducción del 15% en los gastos generales de eficiencia energética (del inglés PUE) después de tener en cuenta las pérdidas eléctricas y otras ineficiencias no relacionadas con la refrigeración. También se produjo el PUE más bajo que jamás había visto la instalación. Con base en este ahorro significativo, Google buscó implementar la tecnología en sus otras instalaciones y sugirió que otras empresas hicieran lo mismo.

La misión de Facebook es “dar a las personas el poder de construir una comunidad y acercar el mundo”, descrita en su publicación Applied Machine Learning at Facebook: A Datacenter Infrastructure Perspective (Aprendizado de máquina aplicado ao Facebook: uma perspectiva da infraestrutura de datacenter, em tradução livre). Describe la infraestructura de hardware y software que admite el aprendizaje de máquina a escala global.

Para darte una idea de cuánta capacidad de procesamiento necesitan AI y AM, Andrew Ng, científico jefe del Laboratorio de Silicon Valley de Baidu, dijo que habilitar uno de los modelos de reconocimiento de voz chinos de Baidu requiere no solo cuatro terabytes de datos de entrenamiento, sino también 20 exaflops de procesamiento, o 20 mil millones de operaciones matemáticas a lo largo del ciclo de entrenamiento.

Pero, ¿qué pasa con la infraestructura de nuestro centro de datos? ¿Cómo afecta la IA al diseño y la implementación de todas las instalaciones de diferentes tamaños y formatos que estamos buscando construir, alquilar o renovar para acomodar esta tecnología innovadora, económica y que salva vidas?

AM se puede ejecutar en una sola máquina, pero gracias a la increíble cantidad de procesamiento de datos, generalmente se ejecuta en múltiples máquinas, todas interconectadas para garantizar una comunicación continua durante las fases de capacitación y procesamiento de datos, con baja latencia y absolutamente sin interrupciones del servicio en nuestras yemas de los dedos, pantallas o dispositivos de audio. Como seres humanos, nuestro creciente deseo de datos está impulsando un crecimiento exponencial en la cantidad de ancho de banda necesario para satisfacer nuestros caprichos más simples.

Este ancho de banda debe distribuirse dentro y a través de múltiples instalaciones, utilizando diseños arquitectónicos más complejos, donde ya no se reducen por arquitecturas de spine-leaf – estamos hablando de redes de super-spine y super-leaf, proporcionando una vía rápida para que toda la computación algorítmica compleja fluya entre diferentes dispositivos y finalmente regrese a nuestros receptores.

Opciones de implementación de tecnología en el centro de datos

Es aquí donde la fibra desempeña un papel fundamental, para que la foto o vídeo de ese momento especial (o tonto) sea transmitida y vista, compartida y comentada por todos. La fibra se ha convertido en el medio de transmisión de facto en todas nuestras infraestructuras de centros de datos, gracias a sus características de alta velocidad y densidad ultra alta en comparación con sus primos de cobre. A medida que migramos a velocidades de red más altas, también estamos introduciendo una nueva complejidad en la combinación: ¿qué tecnología adoptar?

Las redes tradicionales de 3 niveles usaban conmutación de núcleo, agregada y de borde para conectar los diferentes servidores dentro del centro de datos, donde el tráfico entre servidores viaja de norte a sur a través de dispositivos activos para comunicarse. Ahora, sin embargo, y gracias a los altos requisitos de procesamiento y la interdependencia que presentan AI y AM, más de estas redes se implementan utilizando una arquitectura spine-leaf de 2 capas, donde los servidores se comunican en dirección este-oeste, debido a la latencia requerida por las redes de producción y formación.

Desde la aprobación de 40G y 100G por IEEE en 2010, varias soluciones propietarias de la competencia han confundido a los usuarios que no están seguros de qué camino tomar. Para que quede claro, antes de 40G y los demás teníamos SR, o corto alcance, para multimodo y LR, o largo alcance, para monomodo. Ambos usaron un solo par de fibras para transmitir una señal entre dos dispositivos. No importa qué equipo se haya utilizado o qué transceptor se haya instalado en ese dispositivo, fue una simple transacción de datos de dos fibras.

Pero el IEEE ha aprobado soluciones en 40G y más allá, y sus parientes competidores han cambiado el juego. Ahora nos enfrentamos a dos fibras que utilizan técnicas WDM estándar que están aprobadas o patentadas y no son interoperables, y que están aprobadas por estándares o acuerdos de múltiples fuentes (del inglés MSA) y técnicas de ingeniería para óptica paralela que usan ocho fibras (cuatro para transmitir y cuatro para recibir) o 20 fibras (10 para transmitir y 10 para recibir).

  • Si deseas continuar con las soluciones estándar aprobadas y mantener bajos los costos ópticos porque no necesita los recursos de distancia de la fibra monomodo, seleccione la óptica paralela multimodo, que también te permite dividir puertos de switch de alta velocidad 40 o 100G en puertos de servidor más pequeños, 10 o 25G. Cubriré un poco más de esto en detalle en este artículo.

  • Si deseas extender la vida útil de su fibra dúplex instalada y no te importa continuar con su proveedor de hardware preferido sin la opción de interoperabilidad y, nuevamente, no necesita distancias más largas, simplemente selecciona una de las soluciones WDM multimodo.

Ahora te voy a decir lo que la mayoría de las empresas de tecnología que implementan IA a gran escala están diseñando en sus redes para hoy y mañana... óptica paralela monomodo. Y aquí hay tres razones sencillas.

1. Costo y distancia

La tendencia actual del mercado es que las soluciones ópticas paralelas se desarrollen y se lancen primero, con las soluciones WDM haciendo lo mismo unos años más tarde, de modo que los volúmenes en paralelo sean mucho mayores, lo que se traduce en un menor coste de fabricación. También admiten distancias más cortas de 2 km y soluciones WDM de 10 km, por lo que no necesita tantos componentes complejos para enfriar láseres y multiplexar y demultiplexar la señal en ambos extremos. Y aunque hemos visto explotar el tamaño y la escala de estas instalaciones de “hiperescala” en edificios del tamaño de 3 a 4 campos de fútbol dentro de grandes campus, nuestros propios datos muestran que la longitud media implantada sobre la fibra monomodo debe superar los 165 m en estas instalaciones, por lo tanto, no hay necesidad de pagar por un transceptor WDM más caro para viajar una distancia que no necesitan soportar.

El paralelo monomodo también usa menos energía que una variante WDM. Como vimos en el ejemplo de Google con respecto al uso de energía, cualquier cosa que se pueda hacer para reducir el gran costo operativo individual de un centro de datos resulta útil.

2. Flexibilidad

Una de las principales ventajas de implementar ópticas paralelas es la capacidad de tomar un puerto de switch de alta velocidad, digamos 40G, y dividirlo en 4 puertos de servidor de 10G. La división de puertos ofrece grandes economías de escala, porque la división en puertos rápidos puede reducir significativamente la cantidad de chasis o unidades de montaje en rack para componentes electrónicos de 3:1 (y el patrimonio del centro de datos no es barato) y consume menos energía, lo que requiere menos refrigeración, lo que reduce aún más la factura de energía, y nuestros datos muestran que esto equivale a un ahorro del 30% en una solución monomodo. Los proveedores de transceptores también confirman que una gran proporción de todos los transceptores ópticos paralelos enviados se implementan para aprovechar esta capacidad de división de puertos.

3. Migración simple y clara

La hoja de ruta tecnológica de los principales proveedores de conmutadores y transceptores muestra una ruta de migración muy clara y sencilla para los clientes que implementan ópticas paralelas. Mencioné anteriormente que la mayoría de las empresas de tecnología han seguido este camino, por lo que cuando la óptica está disponible y migran de 100G a 200G o 400G, su infraestructura de fibra permanece en funcionamiento, sin necesidad de actualizaciones. Es posible que las empresas que decidan quedarse con una infraestructura dúplex de 2 fibras deseen actualizar más allá de 100G, pero es posible que la óptica WDM no esté disponible dentro del período de tiempo de sus planes de migración.

Impacto en el diseño del centro de datos

Desde el punto de vista de la conectividad, estas redes son infraestructuras de fibra de malla pesada para garantizar que ningún servidor esté a más de dos saltos de red entre sí. Pero la demanda de ancho de banda es tal que incluso la relación tradicional de sobredemanda de 3:1 del switch spine para y el switch leaf no es suficiente y se utiliza más comúnmente para la computación distribuida del super spines en los diferentes data halls.

Gracias al aumento significativo en las velocidades de E/S del switch, los operadores de red se esfuerzan por mejorar la utilización, aumentar la eficiencia y dejar la latencia ultrabaja que mencionamos al diseñar sus sistemas, utilizando una relación de demanda de 1:1 de la spine para la leaf, un requisito costoso pero necesario en el abrumador entorno de IA actual.

Además, tenemos otro cambio con respecto al diseño tradicional del centro de datos después del reciente anuncio de Google de su último hardware de IA, un ASIC personalizado llamado Tensor Processing Unit (TPU 3.0) que, en su diseño de pod gigante, será ocho veces más potente que las TPUs del año pasado, con más de 100 petaflops. Pero agregar aún más capacidad de procesamiento al silicio también aumentará la cantidad de energía para impulsarlo y, por lo tanto, la cantidad de calor, razón por la cual el mismo anuncio decía que están cambiando a enfriamiento líquido de chip, ya que el calor generado por TPU 3.0 ha superado los límites de sus anteriores soluciones de refrigeración para centros de datos.

Para concluir

La IA es la próxima ola de innovación comercial. Las ventajas que aporta, como ahorro de costes operativos, flujos de ingresos adicionales, interacción con el cliente simplificada y formas de trabajo mucho más eficientes y basadas en datos son muy atractivas – no solo para los CFOs y accionistas, sino también para sus clientes. Esto se confirmó en un panel de discusión reciente, cuando el moderador habló sobre los sitios que usan ChatBots y afirmó que, si no eran eficientes y estaban lo suficientemente enfocados en el cliente, abandonaría la conversación y la empresa nunca volvería a recibir su negocio.

Así que tenemos que adoptar la tecnología y usarla en nuestro beneficio, lo que también significa adoptar una forma diferente de pensar sobre el diseño y la implementación del centro de datos. Gracias al aumento significativo en el rendimiento de los ASIC, veremos, al final, un aumento en las velocidades de E/S, profundizando aún más la conectividad. Sus centros de datos tendrán que ser súper eficientes, con alta malla de fibra, latencia ultrabaja, arquitecturas spine-leaf este-oeste que se adapten a su tráfico de producción diario, al tiempo que admiten la habilitación de AM en paralelo, lo que convenientemente me lleva a cerrar aquí.

Hemos visto cómo las empresas de tecnología líderes han adoptado la IA y cómo la implementación monomodo paralela les ha ayudado a lograr costos operativos y de capital más altos en comparación con los métodos dúplex tradicionales, que prometen costos más bajos desde el primer día. Pero la operación de un centro de datos comienza el segundo día y continúa evolucionando a medida que nuestros hábitos y formas de interactuar personal y profesionalmente continúan cambiando, aumentando en velocidad y agregando más complejidad. La instalación de la solución de infraestructura de cableado adecuada ahora permitirá a su empresa obtener mayores beneficios financieros desde el principio, retener y atraer a más clientes y brindar a sus instalaciones la flexibilidad para prosperar, independientemente de las demandas a las que esté sujeto.

Compartir