No Supercomputação 2024 (SC24), Enfabrica Corporation apresentou um marco na rede de data centers de IA: o SuperNIC de tecido de computação acelerado (ACF) Chip. O Placa de interface de rede (NIC) SoC de 3,2 terabits por segundo (Tbit/s) redefine operações de IA e aprendizado de máquina (ML) em grande escala, permitindo escalabilidade massiva, Suporte para clusters com mais de 500.000 GPUs. A Enfabrica também ganhou US$ 115 milhões em financiamento e espera-se que seja publicado (ACF)SuperNIC chip no primeiro trimestre de 2025.
Enfrentando os desafios das redes de IA
À medida que os modelos de IA se tornam maiores e mais sofisticados, os data centers estão sob crescente pressão para conectar um grande número de unidades de processamento especializadas, como GPUs. Essas GPUs são essenciais para computação de alta velocidade em treinamento e inferência, mas muitas vezes permanecem sem uso devido à movimentação ineficiente de dados nas arquiteturas de rede existentes. O desafio é conectar efetivamente milhares de GPUs para garantir a transferência ideal de dados sem gargalos ou degradação de desempenho.
As abordagens de rede tradicionais podem conectar cerca de 100.000 chips de computação de IA em um data center antes que ineficiências e lentidão se tornem significativas. De acordo com o CEO da Enfabrica, Rochan Sankar, a nova tecnologia da empresa suporta até 500.000 chips em um único sistema AI/ML. Isso permite cálculos de modelos de IA maiores e mais confiáveis. Ao superar as limitações dos designs de NIC tradicionais, o ACF SuperNIC da Enfabrica maximiza a utilização da GPU e minimiza o tempo de inatividade.
Inovações importantes no ACF SuperNIC
O ACF SuperNIC possui vários recursos exclusivos do setor, adaptados às necessidades dos data centers modernos de IA:
- Conectividade multiporta de alta largura de banda: O ACF SuperNIC oferece Ethernet de 800 Gigabit multiportas para servidores GPU, quadruplicando a largura de banda em comparação com outras NICs conectadas a GPU. Esta configuração fornece rendimento sem precedentes e melhora a resiliência multipath, garantindo uma comunicação robusta entre clusters de IA.
- Projeto de rede eficiente de duas camadas: Com uma configuração de alta base de 32 portas de rede e até 160 pistas PCIe, o ACF SuperNIC simplifica a arquitetura geral dos data centers de IA. Essa eficiência permite que as operadoras construam clusters enormes com menos camadas, reduzindo a latência e melhorando a eficiência da transferência de dados entre GPUs.
- Aumentando e expandindo: O Enfabrica ACF SuperNIC, com seus recursos de movimentação de dados e multipathing PCIe/Ethernet de alta raiz, alta largura de banda e simultâneos, pode aumentar e diminuir de forma exclusiva de quatro a oito GPUs de última geração por sistema de servidor. Isto aumenta significativamente o desempenho, a escalabilidade e a resiliência dos clusters de IA, garantindo a utilização ideal de recursos e a eficiência da rede.
- Interface PCIe integrada: O chip suporta 128 a 160 pistas PCIe e oferece velocidades acima de 5 Tbit/s. Esse design permite que várias GPUs sejam conectadas a uma única CPU, mantendo a comunicação de alta velocidade com os switches do data center. O resultado é um layout mais eficiente e flexível que suporta cargas de trabalho de IA em grande escala.
- Multicaminhos de mensagens resilientes (RMM): A tecnologia RMM proprietária da Enfabrica aumenta a confiabilidade dos clusters de IA. Ao mitigar o impacto de falhas ou interrupções na conexão de rede, o RMM evita interrupções de trabalhos, garantindo processos de treinamento de IA mais suaves e eficientes. Sankar ressalta a importância desse recurso, principalmente em grandes instalações onde falhas de conexão com switches são comuns.
- Rede RDMA definida por software: esse recurso exclusivo oferece aos operadores de data center capacidade total de programação e depuração e traz os benefícios da rede definida por software (SDN). Acesso remoto direto ao armazenamento (RDMA) Configurações. Ele permite a personalização da camada de transporte, permitindo que topologias de rede em escala de nuvem sejam otimizadas sem sacrificar o desempenho.
Maior resiliência e eficiência
Os sistemas tradicionais geralmente exigem conexões individuais entre GPUs e vários componentes, como switches PCIe e NICs RDMA. No entanto, à medida que o número de GPUs em um sistema aumenta, o risco de falhas de conexão no switch aumenta, com possíveis falhas ocorrendo a cada 23 minutos, de acordo com Shankar, em configurações com mais de 100.000 GPUs.
O ACF SuperNIC resolve esse problema permitindo múltiplas conexões de GPUs a switches. Esta redundância minimiza o impacto de falhas de componentes individuais, aumentando assim a disponibilidade e a confiabilidade do sistema.
O SuperNIC também apresenta este Recurso de zoneamento de armazenamento coletivoque suporta transferências de dados sem cópia e otimiza o gerenciamento de armazenamento do host. Ao reduzir a latência e melhorar a eficiência do armazenamento, esta tecnologia maximiza o Operações de ponto flutuante por segundo (FLOPs) Uso de frotas de servidores GPU.
Escalabilidade e benefícios operacionais
O design do ACF SuperNIC não envolve apenas escala, mas também eficiência operacional. Ele fornece uma pilha de software que se integra a comunicações padrão, interfaces existentes e operações de rede RDMA. Essa compatibilidade garante uma implantação eficiente em vários ambientes de computação de IA que consistem em GPUs e aceleradores (chips de IA) de diferentes fornecedores. Os operadores de data centers se beneficiam de uma infraestrutura de rede otimizada que reduz a complexidade e aumenta a flexibilidade de seus data centers de IA.
Disponibilidade e perspectivas futuras
O ACF SuperNIC da Enfabrica estará disponível em quantidades limitadas no primeiro trimestre de 2025. Tanto os chips quanto os sistemas piloto agora podem ser encomendados através da Enfabrica e de parceiros selecionados. Como os modelos de IA exigem maior desempenho e escalas maiores, a abordagem inovadora da Enfabrica poderá desempenhar um papel crítico na formação da próxima geração de data centers de IA projetados para suportar modelos de IA de ponta.
Enviado
. Leia mais sobre IA (Inteligência Artificial), chip, IA generativa, semicondutores, servidores, SoC e supercomputadores.No Supercomputação 2024 (SC24), Enfabrica Corporation apresentou um marco na rede de data centers de IA: o SuperNIC de tecido de computação acelerado (ACF) Chip. O Placa de interface de rede (NIC) SoC de 3,2 terabits por segundo (Tbit/s) redefine operações de IA e aprendizado de máquina (ML) em grande escala, permitindo escalabilidade massiva, Suporte para clusters com mais de 500.000 GPUs. A Enfabrica também ganhou US$ 115 milhões em financiamento e espera-se que seja publicado (ACF)SuperNIC chip no primeiro trimestre de 2025.
Enfrentando os desafios das redes de IA
À medida que os modelos de IA se tornam maiores e mais sofisticados, os data centers estão sob crescente pressão para conectar um grande número de unidades de processamento especializadas, como GPUs. Essas GPUs são essenciais para computação de alta velocidade em treinamento e inferência, mas muitas vezes permanecem sem uso devido à movimentação ineficiente de dados nas arquiteturas de rede existentes. O desafio é conectar efetivamente milhares de GPUs para garantir a transferência ideal de dados sem gargalos ou degradação de desempenho.
As abordagens de rede tradicionais podem conectar cerca de 100.000 chips de computação de IA em um data center antes que ineficiências e lentidão se tornem significativas. De acordo com o CEO da Enfabrica, Rochan Sankar, a nova tecnologia da empresa suporta até 500.000 chips em um único sistema AI/ML. Isso permite cálculos de modelos de IA maiores e mais confiáveis. Ao superar as limitações dos designs de NIC tradicionais, o ACF SuperNIC da Enfabrica maximiza a utilização da GPU e minimiza o tempo de inatividade.
Inovações importantes no ACF SuperNIC
O ACF SuperNIC possui vários recursos exclusivos do setor, adaptados às necessidades dos data centers modernos de IA:
- Conectividade multiporta de alta largura de banda: O ACF SuperNIC oferece Ethernet de 800 Gigabit multiportas para servidores GPU, quadruplicando a largura de banda em comparação com outras NICs conectadas a GPU. Esta configuração fornece rendimento sem precedentes e melhora a resiliência multipath, garantindo uma comunicação robusta entre clusters de IA.
- Projeto de rede eficiente de duas camadas: Com uma configuração de alta base de 32 portas de rede e até 160 pistas PCIe, o ACF SuperNIC simplifica a arquitetura geral dos data centers de IA. Essa eficiência permite que as operadoras construam clusters enormes com menos camadas, reduzindo a latência e melhorando a eficiência da transferência de dados entre GPUs.
- Aumentando e expandindo: O Enfabrica ACF SuperNIC, com seus recursos de movimentação de dados e multipathing PCIe/Ethernet de alta raiz, alta largura de banda e simultâneos, pode aumentar e diminuir de forma exclusiva de quatro a oito GPUs de última geração por sistema de servidor. Isto aumenta significativamente o desempenho, a escalabilidade e a resiliência dos clusters de IA, garantindo a utilização ideal de recursos e a eficiência da rede.
- Interface PCIe integrada: O chip suporta 128 a 160 pistas PCIe e oferece velocidades acima de 5 Tbit/s. Esse design permite que várias GPUs sejam conectadas a uma única CPU, mantendo a comunicação de alta velocidade com os switches do data center. O resultado é um layout mais eficiente e flexível que suporta cargas de trabalho de IA em grande escala.
- Multicaminhos de mensagens resilientes (RMM): A tecnologia RMM proprietária da Enfabrica aumenta a confiabilidade dos clusters de IA. Ao mitigar o impacto de falhas ou interrupções na conexão de rede, o RMM evita interrupções de trabalhos, garantindo processos de treinamento de IA mais suaves e eficientes. Sankar ressalta a importância desse recurso, principalmente em grandes instalações onde falhas de conexão com switches são comuns.
- Rede RDMA definida por software: esse recurso exclusivo oferece aos operadores de data center capacidade total de programação e depuração e traz os benefícios da rede definida por software (SDN). Acesso remoto direto ao armazenamento (RDMA) Configurações. Ele permite a personalização da camada de transporte, permitindo que topologias de rede em escala de nuvem sejam otimizadas sem sacrificar o desempenho.
Maior resiliência e eficiência
Os sistemas tradicionais geralmente exigem conexões individuais entre GPUs e vários componentes, como switches PCIe e NICs RDMA. No entanto, à medida que o número de GPUs em um sistema aumenta, o risco de falhas de conexão no switch aumenta, com possíveis falhas ocorrendo a cada 23 minutos, de acordo com Shankar, em configurações com mais de 100.000 GPUs.
O ACF SuperNIC resolve esse problema permitindo múltiplas conexões de GPUs a switches. Esta redundância minimiza o impacto de falhas de componentes individuais, aumentando assim a disponibilidade e a confiabilidade do sistema.
O SuperNIC também apresenta este Recurso de zoneamento de armazenamento coletivoque suporta transferências de dados sem cópia e otimiza o gerenciamento de armazenamento do host. Ao reduzir a latência e melhorar a eficiência do armazenamento, esta tecnologia maximiza o Operações de ponto flutuante por segundo (FLOPs) Uso de frotas de servidores GPU.
Escalabilidade e benefícios operacionais
O design do ACF SuperNIC não envolve apenas escala, mas também eficiência operacional. Ele fornece uma pilha de software que se integra a comunicações padrão, interfaces existentes e operações de rede RDMA. Essa compatibilidade garante uma implantação eficiente em vários ambientes de computação de IA que consistem em GPUs e aceleradores (chips de IA) de diferentes fornecedores. Os operadores de data centers se beneficiam de uma infraestrutura de rede otimizada que reduz a complexidade e aumenta a flexibilidade de seus data centers de IA.
Disponibilidade e perspectivas futuras
O ACF SuperNIC da Enfabrica estará disponível em quantidades limitadas no primeiro trimestre de 2025. Tanto os chips quanto os sistemas piloto agora podem ser encomendados através da Enfabrica e de parceiros selecionados. Como os modelos de IA exigem maior desempenho e escalas maiores, a abordagem inovadora da Enfabrica poderá desempenhar um papel crítico na formação da próxima geração de data centers de IA projetados para suportar modelos de IA de ponta.
Enviado
. Leia mais sobre IA (Inteligência Artificial), chip, IA generativa, semicondutores, servidores, SoC e supercomputadores.