Qué modelo de Qwen funciona mejor según la GPU

Guía de qué modelos Qwen ejecutar en cada GPU NVIDIA y AMD. Benchmarks con llama.cpp, VRAM necesaria, contexto y rendimiento en tokens/s.

Uno de los problemas más comunes cuando ejecutas LLMs en local es saber qué modelo funciona realmente bien en tu GPU. La teoría suele decir una cosa… pero la realidad del hardware muchas veces cuenta otra historia.

La comparativa está realizada por Sudo su, una cuenta de Twitter que se enfoca en temas de inteligencia artificial, benchmarks de modelos de lenguaje grandes (LLM) como Qwen, y configuraciones de hardware para GPUs, basados en pruebas reales con herramientas como llama.cpp.

Aquí se recopilan benchmarks reales ejecutados en hardware físico, utilizando llama.cpp con Flash Attention, para identificar qué modelo Qwen funciona mejor en cada GPU.

Todos los resultados están probados en configuraciones reales, optimizadas con flags como: -ngl 99 y -fa on.

El objetivo es claro: máximo rendimiento y máximo contexto posible dentro de la VRAM disponible.

Contenidos mostrar

Benchmarks reales (hardware probado)

Estos son los tests más representativos ejecutados en hardware real.

NVIDIA RTX 3060 12GB → Qwen 3.5 9B Q4 ~50 tok/s 128K
NVIDIA RTX 3090 24GB → Qwen 3.5 27B Q4 ~35 tok/s 300K
NVIDIA RTX 3090 24GB → Qwen 3.5 35B MoE Q4 ~112 tok/s 262K
NVIDIA RTX 3090 x2 → Qwen3-Coder 80B Q4 ~46 tok/s VRAM completa

Todos los modelos se ejecutaron con llama.cpp + Flash Attention, lo que mejora significativamente la velocidad de inferencia.

Qué modelo Qwen usar según tu GPU

A continuación, una referencia rápida de qué modelo funciona mejor en cada tarjeta gráfica.

AMD RX 7900 XTX 24GB → Qwen 3.5 27B Q4
NVIDIA GTX 1080 → Qwen 3.5 9B Q4 32K context
NVIDIA RTX 2060 6GB → Qwen 3.5 7B Q4
NVIDIA RTX 2070 8GB → Qwen 3.5 9B Q4 32K context
NVIDIA RTX 2080 Ti 11GB → Qwen 3.5 9B Q4 64K+ context
NVIDIA RTX 3050 4GB → Qwen 3.5 3B Q4 o 7B Q4 con offload parcial a CPU
NVIDIA RTX 3060 12GB → Qwen 3.5 9B Q4 50 tok/s 128K context
NVIDIA RTX 3060 Laptop 6GB → Qwen 3.5 7B Q4 16–32K context
NVIDIA RTX 3070 8GB → Qwen 3.5 9B Q4 32K context
NVIDIA RTX 3080 Ti 12GB → Qwen 3.5 9B Q4 128K context o 14B Q4 si el contexto <32K
NVIDIA RTX 3090 24GB → Qwen 3.5 27B Q4 o 35B MoE Q4
NVIDIA RTX 3090 x2 → Qwen3-Coder 80B Q4
NVIDIA RTX 3090 x3 → Qwen 3.5 72B Q4 o 80B Coder
NVIDIA RTX 4060 8GB → Qwen 3.5 9B Q4
NVIDIA RTX 4080 16GB → Qwen 3.5 14B Q4 o 9B con contexto muy grande
NVIDIA RTX 4090 24GB → Qwen 3.5 27B Q4 o 35B MoE
NVIDIA RTX 5050 8GB → Qwen 3.5 9B Q4 32K context
NVIDIA RTX 5060 Ti 16GB → Qwen 3.5 14B Q4 64K+ context
NVIDIA RTX 5090 32GB → Qwen 3.5 27B Q4 o 35B MoE

Qué modelo Qwen usar según la RAM

Todos los datos que aparecen a continuación provienen de pruebas reales, no de hojas de especificaciones.

8 GB de VRAM (RTX 3060 8GB, 4060, 4060 Ti 8GB)

Modelo: Qwen 3.5 7B Q4_K_M (~4,5 GB)
Contexto: 32K–64K con KV cache cuantizado
Velocidad: ~55–60 tokens/s (estimado)
Caso de uso: asistente de programación, chat, llamadas a herramientas ligeras

12 GB de VRAM (RTX 3060 12GB, 4060 Ti 16GB)

Modelo: Qwen 3.5 9B Q4_K_M (~5,3 GB)
Contexto: 128K–512K con KV cache cuantizado
Velocidad: 50 tokens/s estables independientemente del contexto
Uso de VRAM a 256K: 8,2 GB (4 GB libres)
Caso de uso: agente autónomo completo con Hermes, generación de código multiarchivo

16 GB de VRAM (RTX 5070 Ti, 4080)

Modelo: Qwen 3.5 14B Q4_K_M (~8,5 GB)
Contexto: 128K+ con margen disponible
Velocidad: ~40–45 tokens/s
Caso de uso: razonamiento más avanzado, mejores llamadas a herramientas, arquitecturas más complejas

24 GB de VRAM (RTX 3090, 4090)

Modelo: Qwen 3.5 27B Q4_K_M (~16,7 GB)
Contexto: 300K+
Velocidad: ~35 tokens/s en una 3090
Caso de uso: el punto óptimo: desarrollo autónomo serio, investigación y workflows de producción

Todos los modelos de Qwen 3.5

La familia Qwen 3.5 no es un solo modelo, sino una serie completa de LLMs con distintos tamaños y arquitecturas (dense y MoE). En total incluye modelos pequeños, medianos y muy grandes, diseñados para distintos niveles de hardware y casos de uso.

A continuación tienes los 8 modelos principales de Qwen 3.5 disponibles en marzo 2026.

Modelos pequeños (Small)

Pensados para PCs, GPUs domésticas y edge devices.

Qwen3.5-0.8B: 0.8B parámetros
Qwen3.5-2B: 2B parámetros
Qwen3.5-4B: 4B parámetros
Qwen3.5-9B: 9B parámetros

Estos modelos forman la serie Small, con tamaños desde 0.8B hasta 9B parámetros.

Modelos medianos (Medium)

Optimización entre capacidad y coste computacional.

Qwen3.5-27B: tipo de modelo Dense: 27B
Qwen3.5-35B-A3B: tipo de modelo MoE: 35B total (≈3B activos)

El 27B es el modelo denso principal, mientras que el 35B-A3B usa Mixture-of-Experts, activando solo parte de los parámetros por token para mayor eficiencia.

Modelos grandes (Large)

Pensados para infraestructura potente o inferencia en servidor.

Qwen3.5-122B-A10B: tipo de modelo MoE: 122B total
Qwen3.5-397B-A17B: tipo de modelo MoE: 397B total

Estos modelos usan Mixture-of-Experts, donde solo una fracción de los parámetros se activa durante la inferencia.

Variantes y especializaciones

Además de los modelos base, existen versiones derivadas para tareas específicas:

Instruct: optimizados para chat y asistentes
Coder: especializados en programación
VL / multimodal: texto + imagen
Thinking / reasoning modes: razonamiento profundo

Muchos de ellos comparten el mismo backbone pero con distintos fine-tunes o arquitecturas MoE.

Dense vs MoE vs Coder: qué modelo elegir

Dentro de la familia Qwen hay tres tipos principales de modelos:

Dense

Modelos tradicionales donde todos los parámetros participan en cada inferencia.

Ventajas:

comportamiento más estable
más predecibles
menor complejidad

Ejemplo:

Qwen 3.5 27B

MoE (Mixture of Experts)

Estos modelos activan solo una parte de los parámetros en cada token, lo que permite mucho más rendimiento con el mismo hardware.

Ventajas:

mucha más velocidad
modelos más grandes con la misma VRAM

Ejemplo:

Qwen 3.5 35B MoE

En una RTX 3090 puede alcanzar ~112 tokens por segundo, lo que es extremadamente rápido para su tamaño.

Coder

Optimizado específicamente para programación y generación de código.

Ejemplo:

Qwen3-Coder 80B

Especialmente útil en configuraciones multi-GPU.

Configuración recomendada para ejecutar estos modelos

Todos los benchmarks se ejecutaron con llama.cpp optimizado.

Flags recomendados:

-ngl 99
-fa on

Esto permite:

mayor uso de GPU
Flash Attention
menor latencia

Para configuraciones multi-GPU, suele ser mejor usar:

vLLM para paralelismo
o configuraciones avanzadas de llama.cpp

Cómo elegir el modelo según la GPU

Elegir el modelo correcto depende principalmente de: VRAM disponible, tamaño de contexto y velocidad de inferencia deseada.

En general:

8GB VRAM → Qwen 3.5 9B
12GB VRAM → Qwen 3.5 9B / 14B
24GB VRAM → Qwen 3.5 27B o 35B MoE
multi-GPU → modelos 3.5 70B–80B

Los modelos Qwen 3.5 están demostrando ser de los mejores LLMs open source para ejecución local, especialmente cuando se optimizan con llama.cpp + Flash Attention.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación de Sudo su en X/Twitter here’s what i’ve tested and verified on real hardware.

Resume o comparte este contenido a través de:

ChatGPT Perplexity WhatsApp LinkedIn X Grok Google AI

Qué modelo de Qwen funciona mejor según la GPU

Benchmarks reales (hardware probado)

Qué modelo Qwen usar según tu GPU

Qué modelo Qwen usar según la RAM

8 GB de VRAM (RTX 3060 8GB, 4060, 4060 Ti 8GB)