Claude Code: qué es, cómo se instala y cómo sacarle partido

Ejecuta Claude Code “gratis” con Ollama y modelos open‑source

En este post te explico como ejecutar Claude Code “gratis” (sin coste por token) con Ollama y modelos open‑source.

Durante mucho tiempo, usar Claude Code en el día a día significaba pasar por la API de Anthropic: cada iteración, cada respuesta, cada vuelta de tu agente… y eso, en sesiones intensas de desarrollo, puede disparar el gasto.

La novedad es que puedes redirigir Claude Code a un endpoint compatible con la API de Anthropic, y ahí entra Ollama: ejecutas el modelo en tu máquina, sin depender de la nube y sin pagar por token (más allá de tu hardware y electricidad).

RESUMIENDO: Claude Code puede conectarse a Ollama usando la Anthropic‑compatible API de Ollama. Basta con levantar Ollama en localhost:11434, exportar dos variables de entorno y ejecutar claude --model ….

¿Qué es Claude Code (y por qué importa)?

Claude Code es una herramienta “agentic coding” que vive en la terminal: entiende tu repo, lee y modifica archivos y te ayuda a automatizar tareas de desarrollo mediante instrucciones en lenguaje natural.

Lo importante aquí no es el “chat”, sino el flujo: que un asistente pueda iterar sobre tu base de código y ayudarte con tareas repetitivas (explicar, refactorizar, generar módulos, etc.).

El cambio clave: apuntar Claude Code a Ollama (local)

Ollama expone una API compatible con Anthropic para que herramientas como Claude Code puedan conectarse a modelos locales (o incluso modelos en ollama.com). Eso habilita un escenario “offline-first”: tu modelo corre localmente y Claude Code manda las peticiones a tu servidor en localhost.

¿Por qué esto es relevante?

  • Coste por token ≈ 0: no pagas uso por token si todo corre local (tu coste real es hardware/energía).
  • Privacidad: si trabajas con código sensible, mantener el procesamiento en local reduce exposición (y evita enviar tu código a terceros).
  • Modo offline: si no hay internet, sigues trabajando.

(Nota práctica: lo anterior aplica cuando apuntas a localhost y no expones el puerto; si abres la API a red, entra en juego la seguridad).

Requisitos recomendados (realistas)

Para una experiencia razonable con modelos locales:

  • 16 GB de RAM o más (mejor 32 GB si apuntas a modelos grandes).
  • Ollama instalado y corriendo.
  • Claude Code instalado.

Guía paso a paso (5 pasos)

Instala Ollama y levanta el servicio

Ollama sirve su API por defecto en http://localhost:11434/api.

Ejemplo (Linux/macOS):

# Instalación (según tu sistema)

curl -fsSL https://ollama.ai/install.sh | sh

# Levanta el servicio

ollama serve

Consejo: deja ollama serve corriendo en segundo plano mientras uses Claude Code.

Descarga un modelo que programe como Qwen 2.5 Coder

En la librería oficial de Ollama, Qwen 2.5 Coder aparece en varios tamaños y con contexto 32K.

Modelos disponibles (ejemplos):

  • qwen2.5-coder:0.5b, :1.5b, :3b, :7b, :14b, :32b

Descarga un modelo intermedio:

ollama pull qwen2.5-coder:7b

Si tu equipo va justo, prueba qwen2.5-coder:1.5b. Si tienes máquina potente, :14b o :32b.

  • qwen3-coder
  • glm-4.7
  • gpt-oss:20b
  • gpt-oss:120b

Instala Claude Code

MacOs

curl -fsSL https://claude.ai/install.sh | bash

claude --version

Windows

irm https://claude.ai/install.ps1 | iex

claude --version

Conecta Claude Code a Ollama (la clave)

Claude Code se conecta a Ollama usando la Anthropic‑compatible API exportando estas variables:

export ANTHROPIC_AUTH_TOKEN=ollama

export ANTHROPIC_BASE_URL=http://localhost:11434

Si quieres hacerlo persistente (Bash/Zsh):

echo 'export ANTHROPIC_AUTH_TOKEN=ollama' >> ~/.zshrc

echo 'export ANTHROPIC_BASE_URL=http://localhost:11434' >> ~/.zshrc

source ~/.zshrc

Ejecútalo

claude --model qwen2.5-coder:7b

Claude Code requiere una ventana de contexto amplia. Se recomienda al menos 64k tokens.

OLLAMA_CONTEXT_LENGTH=64000 ollama serve

Y ya puedes pedirle tareas, por ejemplo:

“Crea una API REST en Python con FastAPI con CRUD para un modelo Todo”.

Verificación y solución de problemas

“No conecta”

Comprueba que Ollama responde y que ves tus modelos con:

curl http://localhost:11434/api/tags

Ese endpoint lista los modelos disponibles cuando Ollama está funcionando.

“Va lento”

En local, la velocidad depende de CPU/GPU y del tamaño del modelo. Si va pesado, baja de :7b a :1.5b o :3b. (Cuanto más grande, más calidad potencial, pero más consumo).

Qué ganas (y qué sacrificas)

Lo que sí te da este setup

  • Un flujo de agente en terminal con un modelo local.
  • Control de tu stack: eliges el modelo y el tamaño..

Lo que debes asumir

  • Los modelos open‑source pueden cometer más errores que soluciones propietarias punteras en tareas complejas.
  • El rendimiento varía mucho por hardware (RAM/CPU/GPU).

Conclusión: democratización de agentes… por hardware

El impacto real no es solo “ahorrar tokens”: es que ahora cualquiera con un ordenador decente puede experimentar con agentes de programación sin barreras de pago por uso. Ollama, al ofrecer una API compatible, abre un camino muy directo para integrar herramientas como Claude Code con modelos open‑source y trabajar de forma más autónoma.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación Claude Code de Ollama

Resume o comparte este contenido a través de:

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.