El magnate tecnológico Elon Musk ha presumido en Twitter/X de haber puesto en marcha “el grupo de entrenamiento de IA más poderoso del mundo”. Según él, lo usará para crear “la IA más potente del mundo en todos los aspectos para diciembre de este año”. Hoy, el Supergrupo Memphis de xAI comenzó a entrenar IA usando 100,000 GPUs Nvidia H100 enfriadas por líquido, conectadas con una sola red RDMA (acceso remoto directo a memoria).
Es poco probable que Musk haya encendido personalmente el supergrupo, ya que se señala que empezó su enorme tarea a las 4:20 de la mañana hora central, pero como se puede ver, sí ayudó al técnico de fibra óptica.
En mayo, informamos sobre el plan de Musk de abrir la “Gigafábrica de Cómputo” para el otoño de 2025. En ese momento, Musk se apresuró a comenzar a trabajar en el supergrupo, lo que requirió comprar GPUs H100 de la generación actual. Esto parecía indicar que el magnate no quería esperar a que salieran los chips H200, ni mucho menos las próximas GPUs B100 y B200 basadas en Blackwell. Esto a pesar de que se esperaba que las nuevas GPUs Nvidia Blackwell para centros de datos se enviaran antes de finales de 2024.
Entonces, si se anunció que la Gigafábrica de Cómputo se abriría para el otoño de 2025, ¿significa la noticia de hoy que el proyecto se ha completado un año antes? Podría ser, pero parece más probable que las fuentes que hablaron con Reuters y The Information a principios de año se equivocaron o fueron mal citadas sobre el momento del proyecto. Además, con el Supergrupo Memphis de xAI ya funcionando, se responden las preguntas sobre por qué xAI no esperó GPUs más potentes o de próxima generación.
Supermicro proporcionó gran parte del hardware, y el CEO de la empresa, Charles Liang, también comentó en el hilo de Musk, elogiando el trabajo del equipo. Esto sigue a las recientes palabras de admiración de Liang hacia los centros de datos de IA enfriados por líquido de Musk.
En un tuit posterior, Musk explica que el nuevo supergrupo estará “entrenando la IA más poderosa del mundo en todos los aspectos”. Por declaraciones anteriores, suponemos que la potencia de la instalación de 100,000 GPUs H100 de xAI ahora se dirigirá al entrenamiento de Grok 3. Musk dijo que el LLM mejorado debería terminar su etapa de entrenamiento “para diciembre de este año”.
Para poner en contexto los recursos de cómputo del Supergrupo Memphis, ciertamente, en cuanto a escala, el nuevo Supergrupo Memphis de xAI supera fácilmente a cualquier cosa en la lista Top500 más reciente en términos de potencia de GPU. Las supercomputadoras más poderosas del mundo como Frontier (37,888 GPUs de AMD), Aurora (60,000 GPUs de Intel) y Microsoft Eagle (14,400 GPUs Nvidia H100) parecen estar significativamente superadas por la máquina de xAI.