Ejecuta Claude Code “gratis” con Ollama y modelos open‑source
En este post te explico como ejecutar Claude Code “gratis” (sin coste por token) con Ollama y modelos open‑source.
Durante mucho tiempo, usar Claude Code en el día a día significaba pasar por la API de Anthropic: cada iteración, cada respuesta, cada vuelta de tu agente… y eso, en sesiones intensas de desarrollo, puede disparar el gasto.
La novedad es que puedes redirigir Claude Code a un endpoint compatible con la API de Anthropic, y ahí entra Ollama: ejecutas el modelo en tu máquina, sin depender de la nube y sin pagar por token (más allá de tu hardware y electricidad).
RESUMIENDO: Claude Code puede conectarse a Ollama usando la Anthropic‑compatible API de Ollama. Basta con levantar Ollama en
localhost:11434, exportar dos variables de entorno y ejecutarclaude --model ….
¿Qué es Claude Code (y por qué importa)?
Claude Code es una herramienta “agentic coding” que vive en la terminal: entiende tu repo, lee y modifica archivos y te ayuda a automatizar tareas de desarrollo mediante instrucciones en lenguaje natural.
Lo importante aquí no es el “chat”, sino el flujo: que un asistente pueda iterar sobre tu base de código y ayudarte con tareas repetitivas (explicar, refactorizar, generar módulos, etc.).
El cambio clave: apuntar Claude Code a Ollama (local)
Ollama expone una API compatible con Anthropic para que herramientas como Claude Code puedan conectarse a modelos locales (o incluso modelos en ollama.com). Eso habilita un escenario “offline-first”: tu modelo corre localmente y Claude Code manda las peticiones a tu servidor en localhost.
¿Por qué esto es relevante?
- Coste por token ≈ 0: no pagas uso por token si todo corre local (tu coste real es hardware/energía).
- Privacidad: si trabajas con código sensible, mantener el procesamiento en local reduce exposición (y evita enviar tu código a terceros).
- Modo offline: si no hay internet, sigues trabajando.
(Nota práctica: lo anterior aplica cuando apuntas a localhost y no expones el puerto; si abres la API a red, entra en juego la seguridad).
Requisitos recomendados (realistas)
Para una experiencia razonable con modelos locales:
- 16 GB de RAM o más (mejor 32 GB si apuntas a modelos grandes).
- Ollama instalado y corriendo.
- Claude Code instalado.
Guía paso a paso (5 pasos)
Instala Ollama y levanta el servicio
Ollama sirve su API por defecto en http://localhost:11434/api.
Ejemplo (Linux/macOS):
# Instalación (según tu sistema)
curl -fsSL https://ollama.ai/install.sh | sh
# Levanta el servicio
ollama serve
Consejo: deja
ollama servecorriendo en segundo plano mientras uses Claude Code.
Descarga un modelo que programe como Qwen 2.5 Coder
En la librería oficial de Ollama, Qwen 2.5 Coder aparece en varios tamaños y con contexto 32K.
Modelos disponibles (ejemplos):
qwen2.5-coder:0.5b,:1.5b,:3b,:7b,:14b,:32b
Descarga un modelo intermedio:
ollama pull qwen2.5-coder:7b
Si tu equipo va justo, prueba
qwen2.5-coder:1.5b. Si tienes máquina potente,:14bo:32b.
Otros modelos recomendados para usar con Claude Code
qwen3-coderglm-4.7gpt-oss:20bgpt-oss:120b
Instala Claude Code
MacOs
curl -fsSL https://claude.ai/install.sh | bash
claude --version
Windows
irm https://claude.ai/install.ps1 | iex
claude --version
Conecta Claude Code a Ollama (la clave)
Claude Code se conecta a Ollama usando la Anthropic‑compatible API exportando estas variables:
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_BASE_URL=http://localhost:11434
Si quieres hacerlo persistente (Bash/Zsh):
echo 'export ANTHROPIC_AUTH_TOKEN=ollama' >> ~/.zshrc
echo 'export ANTHROPIC_BASE_URL=http://localhost:11434' >> ~/.zshrc
source ~/.zshrc
Ejecútalo
claude --model qwen2.5-coder:7b
Claude Code requiere una ventana de contexto amplia. Se recomienda al menos 64k tokens.
OLLAMA_CONTEXT_LENGTH=64000 ollama serve
Y ya puedes pedirle tareas, por ejemplo:
“Crea una API REST en Python con FastAPI con CRUD para un modelo Todo”.
Verificación y solución de problemas
“No conecta”
Comprueba que Ollama responde y que ves tus modelos con:
curl http://localhost:11434/api/tags
Ese endpoint lista los modelos disponibles cuando Ollama está funcionando.
“Va lento”
En local, la velocidad depende de CPU/GPU y del tamaño del modelo. Si va pesado, baja de :7b a :1.5b o :3b. (Cuanto más grande, más calidad potencial, pero más consumo).
Qué ganas (y qué sacrificas)
Lo que sí te da este setup
- Un flujo de agente en terminal con un modelo local.
- Control de tu stack: eliges el modelo y el tamaño..
Lo que debes asumir
- Los modelos open‑source pueden cometer más errores que soluciones propietarias punteras en tareas complejas.
- El rendimiento varía mucho por hardware (RAM/CPU/GPU).
Conclusión: democratización de agentes… por hardware
El impacto real no es solo “ahorrar tokens”: es que ahora cualquiera con un ordenador decente puede experimentar con agentes de programación sin barreras de pago por uso. Ollama, al ofrecer una API compatible, abre un camino muy directo para integrar herramientas como Claude Code con modelos open‑source y trabajar de forma más autónoma.
Información basada en la publicación Claude Code de Ollama
