¿Por qué xAI ha cedido su clúster de 220.000 GPUs a Anthropic?
Colossus 1 pasó de ser un clúster problemático a un activo rentable para inferencia. Análisis de la jugada de xAI, Anthropic y Elon Musk.
En mayo de 2026, xAI (la filial de IA de SpaceX) anunció un acuerdo inusual: cedía a Anthropic todo el acceso a Colossus 1, su supercomputadora de entrenamiento con más de 220.000 GPUs.
A primera vista parece contradictorio que Elon Musk comparta semejante recurso con un rival. Sin embargo, los detalles técnicos y financieros revelan que Colossus 1 era un «cluster from hell» para entrenamiento, mientras que Anthropic lo aprovechará mejor para inferencia.
La mezcla heterogénea de hardware provocaba un aprovechamiento extremadamente bajo, y el acuerdo transformó un pasivo en una fuente de ingresos estable.
Un clúster heterogéneo con problemas de entrenamiento
Colossus 1 fue construido en Memphis con más de 220.000 GPUs NVIDIA desplegadas en su datacenter. Sin embargo, esas GPUs no eran todas iguales: se mezclaron unas 150.000 unidades H100, 50.000 H200 y 20.000 GB200 (la generación Blackwell nueva). Esta heterogeneidad complica el entrenamiento distribuido a gran escala. En cada paso de entrenamiento, todos los GPUs deben completar su cálculo al unísono. Si los GB200 son muy rápidos pero los H100 más lentos se atrasan (o uno falla), el resto del clúster debe esperar. Este efecto estragador1 hace que una parte importante del hardware permanezca ociosa.
El resultado es catastrófico para la eficiencia: el uso efectivo de FLOPs alcanzado en xAI fue apenas del 11%. En otras palabras, de toda la potencia teórica disponible solo se estaba usando una fracción minúscula. Esta cifra contrasta con los ~40% de MFU (Uso de Operaciones en Punto Flotante) que logran gigantes como Meta o Google en sus clústeres optimizados. Dichas empresas han invertido en topologías de red avanzadas (por ejemplo, Google con su OCS Apollo/Palomar) que evitan el cuello de botella del anillo de comunicación al escalar a decenas de miles de GPUs. En Colossus 1, en cambio, el diseño de red básico de NVIDIA (NCCL en anillo) incurre en latencias enormes cuando los datos deben atravesar 100.000 GPUs. Cada retraso convierte muchos chips en meros espectadores esperando datos.
En resumen, Colossus 1 se volvió un engorro para el entrenamiento de vanguardia. Pequeños desfases o problemas térmicos en los chips Blackwell (que «se funden» si no se manejan con cuidado) rompían la sincronización. De hecho, las propias GPUs GB200 tienen un circuito de suavizado de potencia para evitar picos eléctricos; el software de xAI, diseñado para hardware Hopper, no respetaba estos límites y provocaba fallos físicos. Corregir todo esto requería reescribir gran parte de la pila de software de entrenamiento, un reto enorme.
Inferencia masiva: el nuevo destino de Colossus 1
En contraste, los sistemas de inferencia (los que responden consultas con modelos ya entrenados) son mucho más tolerantes con clusters mixtos. Las tareas de inferencia pueden dividirse en muchos lotes paralelos que no requieren sincronizar cada GPU al milisegundo. Incluso con GPUs de distinta velocidad, cada chip procesa sus solicitudes de forma independiente sin «esperar al más lento». Por ello, el peligro del estragador prácticamente desaparece en uso de inferencia.
Además, bajo un único tenant (Anthropic usará las 220.000 unidades completas), desaparecen las latencias impredecibles debidas a multi-tenant. Anthropic puede despachar cargas de inferencia masiva (por ejemplo, atender peticiones de Claude Pro/Max) de forma escalable. Según el anuncio oficial de xAI, Colossus 1 fue diseñado para todo tipo de cargas (entrenamiento, fine-tuning e inferencia) a escala récord. Al cederlo para inferencia, SpaceXAI convierte lo que antes era un clúster subutilizado en uno rentable.
Esta operación beneficia a ambas partes: Anthropic obtiene de golpe cientos de miles de GPUs listos para escalar Claude, mientras xAI libera a Colossus 1 de la dura carga de entrenamiento. Como señala Dealroom, xAI trasladó sus trabajos pesados de entrenamiento a Colossus 2 (un clúster homogéneo 100% Blackwell), dejando Colossus 1 con solo ~11% de uso y pocos prospectos de mejora. Al arrendar Colossus 1 a Anthropic, SpaceXAI “monetiza” este hardware antes de salir a bolsa, transformando la pérdida potencial en ingresos.
Un giro estratégico y financiero
El movimiento de Musk tiene también un sentido financiero estratégico. Colossus 1 no podía aprovecharse bien para entrenar, pero como clúster de inferencia ahora representa ingresos estimados en varios miles de millones de dólares anuales (los cálculos sugieren unos $2.60 por GPU-hora, totalizando ~$5–6B/año). Esta cifra compensa casi exactamente las pérdidas de xAI. En otras palabras, convertir el clúster “del infierno” en un activo de inferencia estable deja a xAI muy cerca del punto de equilibrio financiero.
Además, este “arte del intercambio” permite a Musk enfocar recursos en la siguiente generación de modelos. Colossus 2 (puro Blackwell) sigue creciendo, preparado para entrenar nuevos LLM de alto nivel. Mientras tanto, Colossus 1 genera caja como un proveedor de infraestructura en la sombra. Este relato cambia la narrativa de xAI/SpaceXAI de “laboratorio carísimo quemando efectivo” a “proveedor de cómputo rentable al estilo AWS” — un cambio clave de imagen de cara a inversores y al IPO planeado de SpaceXAI.
Redistribuyendo el poder de cómputo en la IA
En el contexto general de la carrera por el cómputo de IA, el acuerdo mueve las piezas del tablero. Hasta ahora Anthropic había ido concretando enormes compromisos de capacidad: 5 GW nuevos en AWS con Amazon (prometiendo más de $100 000M en servicios), un pacto de $200 000M con Google Cloud y 3.5 GW de TPUs avanzadas, además de alianzas con Microsoft/NVIDIA en Azure, y otros acuerdos masivos. Todo eso le garantizará teravatios de cómputo en los próximos años. Sin embargo, esas inversiones aún no están en operación plena. El contrato con SpaceXAI le da a Anthropic acceso inmediato a 300 MW y 220.000 GPUs, acelerando su capacidad en el corto plazo.
Este movimiento ocurre justo en medio de la disputa pública entre Musk y OpenAI. Mientras en tribunales Musk cuestiona la legitimidad de Altman, en el mercado refuerza al competidor de OpenAI con millones de horas-GPU. Con Colossus 1, Anthropic prácticamente duplicó su computación disponible casi de golpe (13.8 GW instalados en abril). En comparación, a OpenAI le costó más de un año montar 18 GW. La jerarquía de poder en IA cambia: quien pueda asegurar cómputo primero y mejor marca la diferencia.
Conclusión
El acuerdo SpaceX–Anthropic ilustra cómo un contratiempo técnico puede convertirse en una ventaja estratégica. Colossus 1 pasó de ser el «cluster from hell» para entrenamiento a una gallina de los huevos de oro para inferencia de pago. Elon Musk desplazó la carga de escalado complejo a Anthropic, mientras transforma el hardware subutilizado en flujo de caja, impulsando su misión de IA y su IPO. En definitiva, la historia no es que xAI entregue su tecnología por debilidad, sino que reorienta sus recursos donde rinden mejor y refuerza su posición financiera. En la nueva fase de la carrera por la IA, optimizar el uso del cómputo resulta tan decisivo como acumularlo.
Información basada en las publicaciones en koreano de Mirae Asset Securities2.
- El efecto estragador (inglés: straggler effect) ocurre cuando, en un sistema distribuido, muchas máquinas trabajan en paralelo pero todas deben esperar a que termine la más lenta antes de avanzar.
En entrenamiento de IA a gran escala, esto es especialmente crítico. En un clúster con miles de GPUs entrenando el mismo modelo, en cada paso de entrenamiento, cada GPU calcula una parte del trabajo y luego todas deben sincronizar resultados. El problema aparece cuando una GPU tarda más que las demás.
Por ejemplo: Si 99.999 GPUs terminan su cálculo en 1 segundo, pero una GPU tarda 1,4 segundos, todo el clúster avanza al ritmo de esa GPU lenta.
Durante esos 0,4 segundos extra, el resto de GPUs no está produciendo. Están esperando. Esa espera reduce drásticamente la eficiencia real del clúster.
En el caso de Colossus 1, el problema se agrava porque mezcla varias generaciones de GPUs: H100, H200 y GB200. Las GB200 pueden terminar antes, las H100 pueden tardar más, y cualquier pequeño fallo de red, temperatura, software o comunicación puede convertir a una GPU concreta en el “rezagado” que frena a todas las demás.
Una analogía simple: es como una carrera por equipos en la que no gana quien llega primero, sino cuando llega el último miembro del equipo. Da igual que tengas corredores rapidísimos si todos deben esperar al más lento. ↩︎ - Mirae Asset Securities Co., Ltd. es una de las principales entidades financieras de Corea del Sur y la mayor compañía de banca de inversión y corretaje bursátil del país por capitalización bursátil.
La compañía ofrece una amplia gama de servicios financieros, entre los que se incluyen intermediación bursátil, banca de inversión, gestión patrimonial, suscripción de ofertas públicas iniciales (IPO/OPV) y servicios de consultoría.
Además, Mirae Asset Securities cuenta con presencia internacional y desarrolla actividades de corretaje global, banca de inversión y trading en diez países. ↩︎
