Presentación del diseño de red y centro de datos utilizado por Alibaba para el entrenamiento de grandes modelos de lenguaje.
Alibaba da a conocer más detalles sobre sus LLMs.
Alibaba ha dado a conocer el diseño de su centro de datos para el entrenamiento de LLM, el cual aparentemente consta de una red basada en Ethernet en la que cada host contiene ocho GPUs y nueve NICs, cada uno con dos puertos de 200 GB/segundo. El gigante tecnológico, que también ofrece uno de los mejores modelos de lenguaje grande (LLM) a través de su modelo Qwen, entrenado en 110 mil millones de parámetros, afirma que este diseño ha sido utilizado en producción durante ocho meses, y tiene como objetivo maximizar la utilización de las capacidades PCIe de una GPU aumentando la capacidad de envío/recepción de la red. Otra característica que aumenta la velocidad es el uso de NVlink para la red intra-host, proporcionando mayor ancho de banda entre los hosts. Cada puerto en los NICs está conectado a un switch diferente en la parte superior del rack, evitando un único punto de fallo en un diseño que Alibaba llama optimizado para rieles. Cada pod contiene 15,000 GPUs. Se requiere un nuevo tipo de red debido a que los patrones de tráfico en el entrenamiento de LLM son diferentes de la computación en la nube general debido a la baja entropía y al tráfico de ráfagas. También hay una mayor sensibilidad a fallas y a puntos únicos de fallo. "Basados en las características únicas del entrenamiento de LLM, decidimos construir una nueva arquitectura de red específicamente para el entrenamiento de LLM. Debemos cumplir con los siguientes objetivos: escalabilidad, alto rendimiento y tolerancia a fallos de un solo ToR", dijo la empresa. Otra parte de la infraestructura que se reveló fue el mecanismo de enfriamiento. Como ningún proveedor pudo proporcionar una solución para mantener los chips por debajo de los 105 ºC, temperatura en la que los switches comienzan a apagarse, Alibaba diseñó y creó su propio disipador de vapor con cámara junto con el uso de más pilares capilares en el centro de los chips para llevar el calor de manera más eficiente. El diseño para el entrenamiento de LLM está encapsulado en pods que contienen 15,000 GPUs y cada pod puede estar ubicado en un solo centro de datos. "Todos los edificios de centro de datos en funcionamiento en Alibaba Cloud tienen una restricción de potencia total de 18MW, y un edificio de 18MW puede acomodar aproximadamente 15K GPUs. En conjunto con HPN, cada edificio individual alberga perfectamente un Pod entero, creando enlaces predominantes dentro del mismo edificio", escribió Alibaba. También escribió que espera que los parámetros del modelo continúen aumentando en una orden de magnitud en los próximos años, de un billón a 10 billones de parámetros, y que su nueva arquitectura está planeada para poder soportar esto y aumentar a una escala de 100,000 GPUs.