A inteligência artificial e o impacto em nossos data centers

Ela pode ser útil para descobrir novos níveis de eficiência, mas o preço a ser pago é um aumento maciço na demanda por largura de banda

Por Tony Robinson, Gerente de Aplicações de Marketing Global, Corning Optical Communications

É sempre surpreendente a forma como os cineastas são capazes de introduzir conceitos que na época parecem tão distantes da realidade, mas que com o tempo começam a fazer parte do nosso dia a dia. Em 1990, o filme O Vingador do Futuro, com Arnold Schwarzenegger, apresentou-nos o “Johnny Cab”, um veículo sem motorista que os levava a qualquer lugar que quisessem. Hoje, a maioria das grandes montadoras está investindo milhões para disponibilizar esta tecnologia para as massas. E graças à cena de De Volta para o Futuro 2, em que Marty McFly escapou dos bandidos em um skate flutuante, nossos filhos agora estão trombando com móveis (e uns com os outros), algo semelhante ao que vimos em 1989.

Foi em 1968 (o que ainda pode ser lembrado por alguns de nós) quando fomos apresentados à Inteligência Artificial (IA) com o HAL 9000, um computador senciente a bordo da espaçonave Discovery One em 2001: Uma Odisseia no Espaço. HAL era capaz de falar e reconhecer rostos, processar linguagem natural, fazer leitura labial, apreciar arte, interpretar comportamentos emocionais, raciocinar de forma automatizada e, claro, o truque favorito de Hollywood para computadores, jogar xadrez.

Avance para os últimos dois anos e será possível identificar rapidamente onde a IA se tornou uma parte essencial de nosso cotidiano. Você pode perguntar a seu smartphone como estará o tempo no seu próximo destino de viagem, seu assistente virtual pode tocar sua música favorita e sua conta de mídia social fornecerá atualizações de notícias e anúncios personalizados, de acordo com suas preferências pessoais. E sem querer ofender as empresas de tecnologia, esta é a AI 101.

Mas há muito mais coisas acontecendo nos bastidores que ajudam a melhorar e até mesmo a salvar vidas. Tradução de idiomas, feeds de notícias, reconhecimento facial, diagnóstico mais preciso de doenças complexas e descoberta acelerada de medicamentos são apenas algumas das aplicações nas quais as empresas estão desenvolvendo e implantando a IA. De acordo com o Gartner, o valor do negócio derivado da IA está estimado em US$ 3,9 trilhões em 2022.

Servidores atentos

Então, como a IA afeta o data center? Bem, em 2014, o Google implantou a IA da Deepmind (usando aprendizado de máquina, uma aplicação da IA) em uma de suas instalações. O resultado? Eles foram capazes de atingir consistentemente uma redução de 40% na quantidade de energia usada para resfriamento, o que equivale a uma redução de 15% na sobrecarga geral de eficiência no uso de energia (do inglês PUE) após contabilizar as perdas elétricas e outras ineficiências não relacionadas ao resfriamento. Também foi produzida a PUE mais baixa que aquela instalação já havia visto. Com base nessa economia significativa, o Google procurou implantar a tecnologia em suas outras instalações e sugeriu que outras empresas fizessem o mesmo.

A missão do Facebook é “dar às pessoas o poder de construir uma comunidade e aproximar o mundo”, descrito em sua publicação Applied Machine Learning at Facebook: A Datacenter Infrastructure Perspective (Aprendizado de máquina aplicado ao Facebook: uma perspectiva da infraestrutura de datacenter, em tradução livre). Ela descreve a infraestrutura de hardware e software que oferece suporte ao aprendizado de máquina em escala global.

Para dar uma ideia de quanta capacidade de processamento a IA e o AM precisam, Andrew Ng, cientista-chefe do Laboratório do Vale do Silício do Baidu, disse que capacitar um dos modelos de reconhecimento de fala chineses do Baidu requer não apenas quatro terabytes de dados de treinamento, mas também 20 exaflops de processamento, ou 20 bilhões de operações matemáticas em todo o ciclo de capacitação.

Mas e quanto à nossa infraestrutura de data center? Como a IA afeta o projeto e a implantação de todas as instalações de diferentes tamanhos e formatos que estamos procurando construir, alugar ou renovar para acomodar essa tecnologia inovadora, econômica e que salva vidas?

O AM pode ser executado em uma única máquina, mas graças à incrível quantidade de processamento de dados, ele é normalmente executado em várias máquinas, todas interligadas para garantir a comunicação contínua durante as fases de capacitação e processamento de dados, com baixa latência e absolutamente nenhuma interrupção de serviço nas pontas de nossos dedos, telas ou dispositivos de áudio. Sendo humanos, nosso desejo cada vez maior por dados está gerando um crescimento exponencial na quantidade de largura de banda necessária para satisfazer nossos caprichos mais simples.

Essa largura de banda precisa ser distribuída dentro e entre várias instalações, usando projetos de arquitetura mais complexos, onde não mais sejam reduzidos pelas arquiteturas spine -leaf – estamos falando de redes super-spine e super-leaf, fornecendo uma via rápida para que toda a computação algorítmica complexa flua entre diferentes dispositivos e, em última análise, volte aos nossos receptores.

Opções de implantação de tecnologia no data center

É aqui que a fibra desempenha um papel fundamental, ao garantir que a foto ou o vídeo daquele seu momento especial (ou bobo) sejam transmitidos e vistos, compartilhados e comentados por todos. A fibra se tornou a mídia de transmissão de fato em todas as nossas infraestruturas de data center, graças às suas características de alta velocidade e densidade ultra-alta em comparação com seus primos de cobre. À medida que migramos para velocidades de rede mais altas, também introduzimos uma nova complexidade na combinação – que tecnologia adotar?

As redes tradicionais de 3 camadas usavam comutação de núcleo, agregado e borda para conectar os diferentes servidores dentro do data center, onde o tráfego entre servidores viaja na direção norte-sul pelos dispositivos ativos, para se comunicarem. Agora, no entanto, e muito graças às altas exigências de processamento e à interdependência apresentadas pela IA e pelo AM, mais dessas redes são implementadas usando uma arquitetura spine-leaf de 2 camadas, onde os servidores se comunicam em uma direção leste-oeste, devido à baixíssima latência exigida pelas redes de produção e capacitação.

Desde a aprovação do 40G e 100G pelo IEEE, em 2010, várias soluções proprietárias concorrentes têm confundido os usuários que não têm certeza de qual caminho seguir. Para deixar claro, antes do 40G e dos outros tínhamos SR, ou curto alcance, para multimodo e LR, ou longo alcance, para monomodo. Ambos usavam um único par de fibras para transmitir um sinal entre dois dispositivos. Não importava qual equipamento era usado ou qual transceptor tinha sido instalado naquele dispositivo, era uma simples transação de dados em duas fibras.

Mas o IEEE aprovou soluções em 40G e além, e seus parentes concorrentes mudaram o jogo. Agora estamos diante de duas fibras usando técnicas WDM padrão aprovadas ou proprietárias e não interoperáveis, e aprovadas por padrões ou acordos de múltiplas fontes (do inglês MSA) e técnicas de engenharia para óptica paralela usando oito fibras (quatro para transmitir e quatro para receber) ou 20 fibras (10 para transmitir e 10 para receber).

Se deseja continuar com as soluções padrão aprovadas e manter os custos ópticos baixos porque não precisa dos recursos de distância da fibra monomodo, selecione a óptica paralela multimodo, que também permite dividir portas de switch 40 ou 100G de alta velocidade em portas de servidor menores, de 10 ou 25G. Abordarei um pouco mais disso em detalhes neste artigo.
Se deseja aumentar a vida útil de sua fibra duplex instalada e não se importa em continuar com seu fornecedor de hardware preferido sem a opção de interoperabilidade e, novamente, não precisa de distâncias maiores, basta selecionar uma das soluções WDM multimodo.

Agora vou contar o que a maioria das empresas de tecnologia implantando IA em grande escala estão projetando em suas redes para hoje e amanhã... óptica paralela monomodo. E aqui estão três razões simples.

1. Custo e distância

A tendência atual do mercado é que as soluções ópticas paralelas sejam desenvolvidas e lançadas primeiro, com as soluções WDM seguindo o exemplo alguns anos depois, de modo que os volumes na paralela são muito mais altos, resultando em um custo de fabricação mais baixo. Elas também suportam distâncias menores do que as soluções WDM de 2 km e 10 km, então você não precisa de tantos componentes complexos para resfriar os lasers e multiplexar e demultiplexar o sinal em ambas as extremidades. E embora tenhamos visto o tamanho e a escala dessas instalações de “hiperescala” explodirem em prédios do tamanho de 3 a 4 campos de futebol dentro de grandes campi, nossos próprios dados mostram que o comprimento médio implantado sobre a fibra monomodo ainda deve ultrapassar 165 m nessas instalações, portanto, não há necessidade de pagar por um transceptor WDM mais caro para percorrer uma distância que não precisam suportar.

A paralela monomodo também usa menos energia do que uma variante WDM. Como vimos no exemplo do Google em relação ao uso de energia, qualquer coisa que possa ser feita para reduzir o grande custo operacional individual de um data center vem a calhar.

2. Flexibilidade

Uma das principais vantagens de se implantar a óptica paralela é a capacidade de pegar uma porta de switch de alta velocidade, digamos 40G, e dividi-la em 4 portas de servidor de 10G. A divisão de portas oferece grandes economias de escala, porque a divisão em portas de velocidade mais baixa pode reduzir significativamente o número de chassis ou unidades de montagem em rack para os componentes eletrônicos de 3:1 (e o patrimônio do data center não é barato) e usam menos energia, o que exige menos resfriamento, reduzindo ainda mais a conta de energia, com nossos dados mostrando que isso equivale a uma economia de 30% em uma solução monomodo. Os fornecedores de transceptores também confirmam que uma grande proporção de todos os transceptores ópticos paralelos enviados são implantados para aproveitar as vantagens dessa capacidade de divisão de porta.

3. Migração simples e clara

O roteiro de tecnologia dos principais fornecedores de switch e transceptor mostra um caminho de migração muito claro e simples para clientes que implantam a óptica paralela. Mencionei anteriormente que a maioria das empresas de tecnologia tem seguido esse caminho, então, quando a óptica está disponível e eles migram de 100G para 200 ou 400G, sua infraestrutura de fibra permanece em funcionamento, sem necessidade de atualizações. As empresas que decidirem permanecer com uma infraestrutura duplex de 2 fibras podem querer fazer um upgrade para além de 100G, mas a óptica WDM pode não estar disponível dentro do prazo de seus planos de migração.

Impacto no projeto do data center

Do ponto de vista da conectividade, essas redes são infraestruturas de fibra em malha pesada para garantir que nenhum servidor fique a mais de dois saltos de rede um do outro. Mas tal é a demanda de largura de banda que mesmo a taxa tradicional de excesso de demanda de 3:1 do switch spine para o switch leaf não é suficiente e é mais comumente usada para computação distribuída dos super spines entre os diferentes data halls.

Graças ao aumento significativo nas velocidades de E/S do switch, as operadoras de rede estão se esforçando para melhorar a utilização, aumentar a eficiência e deixar a latência ultrabaixa que mencionamos ao projetar seus sistemas, usando uma taxa de demanda de 1:1 da spine para a leaf, um requisito caro, mas necessário no esmagador ambiente de IA atual.

Além disso, temos outra mudança em relação ao projeto tradicional do data center após o recente anúncio do Google de seu hardware de IA mais recente, um ASIC personalizado chamado Tensor Processing Unit (TPU 3.0) que, em seu projeto de pod gigante, será oito vezes mais poderoso do que as TPUs do ano passado, com mais de 100 petaflops. Mas incluir ainda mais capacidade de processamento no silício também aumentará a quantidade de energia para acioná-lo e, portanto, a quantidade de calor, razão pela qual o mesmo anúncio dizia que eles estão mudando para a refrigeração líquida do chip, uma vez que o calor gerado pelo TPU 3.0 excedeu os limites de suas soluções de refrigeração de data center anteriores.

Para concluir

A IA é a próxima onda de inovação comercial. As vantagens que ela traz, como economia de custos operacionais, fluxos de receita adicionais, interação simplificada com o cliente e formas de trabalho muito mais eficientes e baseadas em dados são muito atraentes – não apenas para CFOs e acionistas, mas também para seus clientes. Isso foi confirmado em um recente painel de discussão, quando o moderador falou sobre sites que usam ChatBots e afirmou que se não fossem eficientes e focados o suficiente no cliente, ele abandonaria a conversa e a empresa nunca mais receberia seu negócio.

Portanto, temos que abraçar a tecnologia e usá-la a nosso favor, o que também significa adotar uma maneira diferente de pensar sobre o projeto e a implementação do data center. Graças ao aumento significativo no desempenho dos ASICs, veremos, no final das contas, um aumento nas velocidades de E/S, aprofundando ainda mais a conectividade. Seus data centers terão que ser supereficientes, com alta malha de fibra, latência ultrabaixa, arquiteturas spine-leaf leste-oeste que acomodem seu tráfego de produção diário, ao mesmo tempo em que oferecem suporte à capacitação de AM na paralela, o que convenientemente me leva a encerrar por aqui.

Vimos como as principais empresas de tecnologia adotaram a IA e como a implantação monomodo paralela as ajudou a obter maiores custos operacionais e de capital em relação aos métodos duplex tradicionais, que prometem custos mais baixos desde o primeiro dia. Mas a operação de um data center começa no segundo dia e continua a evoluir à medida que nossos hábitos e maneiras de interagir pessoal e profissionalmente continuam a mudar, aumentar em velocidade e adicionar mais complexidade. Instalar a solução certa de infraestrutura de cabeamento agora permitirá que sua empresa obtenha maiores benefícios financeiros desde o início, retenha e atraia mais clientes e dê às suas instalações a flexibilidade para prosperar, independentemente das demandas a que estiver sujeita.

Artificial Intelligence and the Impact on Our Data Centers