¿Por qué la aparición de DeepSeek R1 es positiva para Apple?

¿Por qué la aparición de DeepSeek R1 es positiva para Apple?

El modelo DeepSeek R1 (671B) puede ejecutarse con EXO Labs en 7 Mac Minis M4 por un coste «razonable» y asumible por una empresa.

Este es el desglose de los chips que pueden ejecutar DeepSeek V3 y R1 ahora mismo:

  • NVIDIA H100: 80 GB a 3 TB/s, 25.000 dólares, 312,50 dólares por GB
  • AMD MI300X: 192 GB a 5,3 TB/s, 20.000 dólares, 104,17 dólares por GB
  • Apple M2 Ultra: 192 GB a 800 GB/s, 5.000 $, 26,04 $ por GB

El chipset M2 Ultra de Apple (lanzado en junio de 2023) es 4 veces más rentable por unidad de memoria que la AMD MI300X y 12 veces más rentable que la NVIDIA H100.

¿Por qué es esto relevante para DeepSeek?

DeepSeek V3/R1 son modelos MoE con 671B parámetros totales, pero sólo 37B están activos cada vez que se genera un token. No sabemos exactamente qué 37B estarán activos cuando generemos un token, así que todos tienen que estar listos en la memoria de alta velocidad de la GPU.

No se puede utilizar la RAM normal del sistema porque es demasiado lenta para cargar los 37B parámetros activos (obtendríamos <1 tok/seg). Por otro lado las GPUs tienen memoria rápida pero la memoria GPU es cara. Apple, sin embargo, utiliza memoria unificada y UltraFusion para fusionar las matrices, un compromiso que favorece una gran cantidad de memoria medianamente rápida a un coste más barato.

La memoria unificada comparte un único pool de memoria entre la CPU y la GPU en lugar de tener memoria separada para cada una. No hay necesidad de tener memoria separada y copiar datos entre la CPU y la GPU.

UltraFusion es la tecnología de interconexión propiedad de Apple para conectar con alta velocidad y baja latencia (2,5TB/s). El M2 Ultra de Apple son literalmente dos chips M2 Max de Apple fusionados con UltraFusion. Esto es lo que permite a Apple alcanzar tal cantidad de memoria (192 GB) y ancho de banda de memoria (800 GB/s).

Se rumorea que el Apple M4 Ultra utilizará la misma tecnología UltraFusion para fusionar dos chips M4 Max. Esto daría al M4 Ultra 256 GB de memoria unificada a 1146 GB/s. Dos de ellos podrían ejecutar DeepSeek V3/R1 (4 bits) a 57 tok/seg.

Todo esto y Apple ha conseguido empaquetarlo en un formato pequeño para los consumidores con una gran eficiencia energética y un gran software de código abierto (¡algo poco característico de Apple!). MLX ha hecho posible aprovechar el silicio de Apple para cargas de trabajo de ML y EXO Labs ha hecho posible agrupar múltiples dispositivos Apple Silicon para ejecutar grandes modelos, demostrando DeepSeek R1 (671B) ejecutándose en 7 Mac Minis M4.

No está claro quién construirá los mejores modelos de IA, pero parece probable que la IA se ejecute en hardware estadounidense, en Apple Silicon.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación en X/Twitter de Alex Cheema de EXO Labs.

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.