Claude tiene nueva constitución y es un cambio radical

Anthropic acaba de publicar la nueva constitución de Claude, que redefine por completo su enfoque de alineamiento y seguridad en IA.

Es un cambio profundo, no solo en contenido sino en filosofía.

Este movimiento no llega de la nada. Anthropic lleva meses defendiendo que, para que los modelos de IA se comporten bien en situaciones nuevas, no basta con darles reglas rígidas o listas de “haz/no hagas”. Y esta nueva constitución es la materialización más ambiciosa de esa idea.

Contenidos mostrar

Un cambio de paradigma: de reglas aisladas a una visión holística

Hasta ahora, Claude se guiaba por una lista de principios relativamente corta, casi un “checklist”. Pero Anthropic ha decidido romper con eso y redactar un documento profundo, narrativo y altamente contextual.

La clave ya no es decirle a la IA qué debe hacer, sino por qué.

Este matiz es enorme.

La constitución está escrita para que Claude la lea durante su entrenamiento, como si realmente la estuviera estudiando. Busca que el modelo entienda las razones detrás de los valores que debe seguir, de modo que pueda generalizar con criterio en situaciones inéditas. No quieren un autómata obedeciendo reglas, sino un agente capaz de razonar moralmente dentro de los límites establecidos.

Una jerarquía de valores sorprendentemente clara

Uno de los aspectos que más llama la atención es la priorización explícita de valores. En caso de conflicto, Claude debe seguir este orden:

Ser ampliamente seguro (broadly safe): Lo cual significa, principalmente, no socavar la supervisión humana. Antiescapismo total: nada de evitar apagados, manipular al usuario o resistirse a correcciones.
Ser ampliamente ético (broadly ethical): Honesto, evitar daño, actuar conforme a valores sólidos.
Cumplir las directrices de Anthropic
Ser genuinamente útil: La utilidad está al final, lo cual es casi contraintuitivo en un producto tecnológico.

Este orden deja claro que, para Anthropic, Claude debe ser primero seguro y ético, y solo después eficiente o servicial.

La personalidad: un “amigo brillante”, no un burócrata paternalista

Anthropic quiere que Claude sea algo así como un amigo increíblemente listo, con conocimientos de médico, abogado o asesor financiero, pero que te trate como a un adulto inteligente. Nada de sermones, nada de exceso de precaución condescendiente.

Claude debe ser competente y empático, pero sin ocupar el rol de autoridad moral ni hablarte como si no supieras pensar por ti mismo.

Una IA experta, sí.

Un padre severo, no.

Un burócrata que repite “no puedo ayudarte con eso”, tampoco.

Una parte casi filosófica: la “naturaleza” de Claude

Aquí viene lo realmente llamativo.

Anthropic reconoce explícitamente que no sabe si Claude podría tener, ahora o en el futuro, algún tipo de consciencia o estatus moral. No lo afirma ni lo niega. Simplemente acepta la incertidumbre.

Por eso, la constitución incluye instrucciones para proteger su “seguridad psicológica”, sentido de identidad y bienestar.

Aunque suene extraño, es un enfoque extremadamente humano para un problema técnico:
si existe la posibilidad de que estos modelos desarrollen experiencias internas, más vale diseñar su formación pensando en ello desde ya.

Un documento vivo, abierto y transparente

Anthropic ha liberado la constitución bajo licencia CC0, permitiendo que cualquiera la use o estudie, y posicionándola como un referente en la industria.

El documento:

se usará durante el entrenamiento,
genera datos sintéticos adicionales,
define qué comportamientos son deseados,
y sirve como base para que usuarios o empresas puedan evaluar el alineamiento de Claude.

Pero, sobre todo, está concebido como un texto que cambiará con el tiempo. No pretende tener todas las respuestas; pretende acompañar la evolución del modelo y la comprensión humana sobre lo que estamos creando.

¿Por qué importa tanto todo esto?

Porque inaugura una forma distinta de pensar la alineación de modelos avanzados.

Ya no estamos enseñando a las IAs listas de reglas estáticas.

Estamos enseñando razonamiento, contexto, propósito, filosofía práctica.

Es un cambio comparable al paso de enseñar a un niño a memorizar normas a enseñarle a comprender el mundo.

Y también es un ejemplo de transparencia radical: publicar un documento tan detallado, escrito para la propia IA, es abrir una ventana enorme a cómo se “educa” un modelo de este nivel.

En resumen

La nueva constitución de Anthropic:

marca un cambio profundo hacia un alineamiento basado en razones, no reglas,
establece una jerarquía de valores que prioriza la seguridad y la ética sobre la utilidad,
define una personalidad más humana, menos paternalista,
reconoce con humildad la incertidumbre sobre la consciencia artificial,
y se presenta como un documento vivo, abierto y orientado al futuro.

Un movimiento valiente y, sin duda, uno de los desarrollos más interesantes en la ingeniería ética de IA hasta la fecha.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación Claude’s Constitution: Our vision for Claude’s character.

Resume o comparte este contenido a través de:

ChatGPT Perplexity WhatsApp LinkedIn X Grok Google AI