Qué modelo de Qwen funciona mejor según la GPU

Qué modelo de Qwen funciona mejor según la GPU

Guía de qué modelos Qwen ejecutar en cada GPU NVIDIA y AMD. Benchmarks con llama.cpp, VRAM necesaria, contexto y rendimiento en tokens/s.

Uno de los problemas más comunes cuando ejecutas LLMs en local es saber qué modelo funciona realmente bien en tu GPU. La teoría suele decir una cosa… pero la realidad del hardware muchas veces cuenta otra historia.

La comparativa está realizada por Sudo su, una cuenta de Twitter que se enfoca en temas de inteligencia artificial, benchmarks de modelos de lenguaje grandes (LLM) como Qwen, y configuraciones de hardware para GPUs, basados en pruebas reales con herramientas como llama.cpp.

Aquí se recopilan benchmarks reales ejecutados en hardware físico, utilizando llama.cpp con Flash Attention, para identificar qué modelo Qwen funciona mejor en cada GPU.

Todos los resultados están probados en configuraciones reales, optimizadas con flags como: -ngl 99 y -fa on.

El objetivo es claro: máximo rendimiento y máximo contexto posible dentro de la VRAM disponible.

Benchmarks reales (hardware probado)

Estos son los tests más representativos ejecutados en hardware real.

  • NVIDIA RTX 3060 12GB → Qwen 3.5 9B Q4 ~50 tok/s 128K
  • NVIDIA RTX 3090 24GB → Qwen 3.5 27B Q4 ~35 tok/s 300K
  • NVIDIA RTX 3090 24GB → Qwen 3.5 35B MoE Q4 ~112 tok/s 262K
  • NVIDIA RTX 3090 x2 → Qwen3-Coder 80B Q4 ~46 tok/s VRAM completa

Todos los modelos se ejecutaron con llama.cpp + Flash Attention, lo que mejora significativamente la velocidad de inferencia.

Qué modelo Qwen usar según tu GPU

A continuación, una referencia rápida de qué modelo funciona mejor en cada tarjeta gráfica.

  • AMD RX 7900 XTX 24GB → Qwen 3.5 27B Q4
  • NVIDIA GTX 1080 → Qwen 3.5 9B Q4 32K context
  • NVIDIA RTX 2060 6GB → Qwen 3.5 7B Q4
  • NVIDIA RTX 2070 8GB → Qwen 3.5 9B Q4 32K context
  • NVIDIA RTX 2080 Ti 11GB → Qwen 3.5 9B Q4 64K+ context
  • NVIDIA RTX 3050 4GB → Qwen 3.5 3B Q4 o 7B Q4 con offload parcial a CPU
  • NVIDIA RTX 3060 12GB → Qwen 3.5 9B Q4 50 tok/s 128K context
  • NVIDIA RTX 3060 Laptop 6GB → Qwen 3.5 7B Q4 16–32K context
  • NVIDIA RTX 3070 8GB → Qwen 3.5 9B Q4 32K context
  • NVIDIA RTX 3080 Ti 12GB → Qwen 3.5 9B Q4 128K context o 14B Q4 si el contexto <32K
  • NVIDIA RTX 3090 24GB → Qwen 3.5 27B Q4 o 35B MoE Q4
  • NVIDIA RTX 3090 x2 → Qwen3-Coder 80B Q4
  • NVIDIA RTX 3090 x3 → Qwen 3.5 72B Q4 o 80B Coder
  • NVIDIA RTX 4060 8GB → Qwen 3.5 9B Q4
  • NVIDIA RTX 4080 16GB → Qwen 3.5 14B Q4 o 9B con contexto muy grande
  • NVIDIA RTX 4090 24GB → Qwen 3.5 27B Q4 o 35B MoE
  • NVIDIA RTX 5050 8GB → Qwen 3.5 9B Q4 32K context
  • NVIDIA RTX 5060 Ti 16GB → Qwen 3.5 14B Q4 64K+ context
  • NVIDIA RTX 5090 32GB → Qwen 3.5 27B Q4 o 35B MoE

Todos los modelos de Qwen 3.5

La familia Qwen 3.5 no es un solo modelo, sino una serie completa de LLMs con distintos tamaños y arquitecturas (dense y MoE). En total incluye modelos pequeños, medianos y muy grandes, diseñados para distintos niveles de hardware y casos de uso.

A continuación tienes los 8 modelos principales de Qwen 3.5 disponibles en marzo 2026.

Modelos pequeños (Small)

Pensados para PCs, GPUs domésticas y edge devices.

  • Qwen3.5-0.8B: 0.8B parámetros
  • Qwen3.5-2B: 2B parámetros
  • Qwen3.5-4B: 4B parámetros
  • Qwen3.5-9B: 9B parámetros

Estos modelos forman la serie Small, con tamaños desde 0.8B hasta 9B parámetros.

Modelos medianos (Medium)

Optimización entre capacidad y coste computacional.

  • Qwen3.5-27B: tipo de modelo Dense: 27B
  • Qwen3.5-35B-A3B: tipo de modelo MoE: 35B total (≈3B activos)

El 27B es el modelo denso principal, mientras que el 35B-A3B usa Mixture-of-Experts, activando solo parte de los parámetros por token para mayor eficiencia.

Modelos grandes (Large)

Pensados para infraestructura potente o inferencia en servidor.

  • Qwen3.5-122B-A10B: tipo de modelo MoE: 122B total
  • Qwen3.5-397B-A17B: tipo de modelo MoE: 397B total

Estos modelos usan Mixture-of-Experts, donde solo una fracción de los parámetros se activa durante la inferencia.

Variantes y especializaciones

Además de los modelos base, existen versiones derivadas para tareas específicas:

  • Instruct: optimizados para chat y asistentes
  • Coder: especializados en programación
  • VL / multimodal: texto + imagen
  • Thinking / reasoning modes: razonamiento profundo

Muchos de ellos comparten el mismo backbone pero con distintos fine-tunes o arquitecturas MoE.

Dense vs MoE vs Coder: qué modelo elegir

Dentro de la familia Qwen hay tres tipos principales de modelos:

Dense

Modelos tradicionales donde todos los parámetros participan en cada inferencia.

Ventajas:

  • comportamiento más estable
  • más predecibles
  • menor complejidad

Ejemplo:

  • Qwen 3.5 27B

MoE (Mixture of Experts)

Estos modelos activan solo una parte de los parámetros en cada token, lo que permite mucho más rendimiento con el mismo hardware.

Ventajas:

  • mucha más velocidad
  • modelos más grandes con la misma VRAM

Ejemplo:

  • Qwen 3.5 35B MoE

En una RTX 3090 puede alcanzar ~112 tokens por segundo, lo que es extremadamente rápido para su tamaño.

Coder

Optimizado específicamente para programación y generación de código.

Ejemplo:

  • Qwen3-Coder 80B

Especialmente útil en configuraciones multi-GPU.

Configuración recomendada para ejecutar estos modelos

Todos los benchmarks se ejecutaron con llama.cpp optimizado.

Flags recomendados:

-ngl 99
-fa on

Esto permite:

  • mayor uso de GPU
  • Flash Attention
  • menor latencia

Para configuraciones multi-GPU, suele ser mejor usar:

  • vLLM para paralelismo
  • o configuraciones avanzadas de llama.cpp

Cómo elegir el modelo según la GPU

Elegir el modelo correcto depende principalmente de: VRAM disponible, tamaño de contexto y velocidad de inferencia deseada.

En general:

  • 8GB VRAM → Qwen 3.5 9B
  • 12GB VRAM → Qwen 3.5 9B / 14B
  • 24GB VRAM → Qwen 3.5 27B o 35B MoE
  • multi-GPU → modelos 3.5 70B–80B

Los modelos Qwen 3.5 están demostrando ser de los mejores LLMs open source para ejecución local, especialmente cuando se optimizan con llama.cpp + Flash Attention.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación de Sudo su en X/Twitter here’s what i’ve tested and verified on real hardware.

Resume o comparte este contenido a través de:

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.