El choque entre OpenAI y Anthropic en ciberseguridad

OpenAI y Anthropic usan dos enfoques opuestos para distribuir capacidades de ciberseguridad con IA: acceso restringido frente a verificado.

En apenas una semana, Anthropic y OpenAI han dejado ver dos filosofías casi opuestas sobre una de las preguntas más delicadas de esta nueva etapa de la IA: quién debería tener acceso a modelos capaces de descubrir y explotar vulnerabilidades a escala. Anthropic presentó Claude Mythos Preview el 7 de abril de 2026; OpenAI amplió su programa Trusted Access for Cyber¹ el 14 de abril de 2026. La proximidad no parece casual: ambos movimientos apuntan al mismo problema, pero parten de supuestos de confianza radicalmente distintos.

Anthropic ha optado por la contención. Según sus propias publicaciones, Mythos² Preview ha identificado miles de vulnerabilidades zero-day en sistemas críticos, incluidos todos los principales sistemas operativos y navegadores. Entre los ejemplos que la compañía destaca hay un fallo de 27 años en OpenBSD, vulnerabilidades en FFmpeg y cadenas de explotación en Linux. Su respuesta no ha sido una apertura general, sino Project Glasswing: una distribución restringida a partners y a un grupo adicional de más de 40 organizaciones que mantienen infraestructura crítica, respaldada por hasta 100 millones de dólares en créditos de uso. Anthropic también afirma que no prevé una disponibilidad general de Mythos por ahora.

OpenAI, en cambio, está apostando por una expansión mucho más amplia, aunque verificada. En su anuncio del 14 de abril, explicó que está escalando Trusted Access for Cyber a miles de defensores individuales verificados y cientos de equipos responsables de proteger software crítico. Además, presentó GPT-5.4-Cyber, una variante afinada para flujos de trabajo de ciberseguridad defensiva y con menos fricción en determinadas salvaguardas. La idea central no es seleccionar manualmente a unos pocos ganadores, sino ampliar el acceso mediante verificación de identidad, señales de confianza y criterios objetivos. OpenAI lo formula de manera explícita: no considera práctico ni apropiado decidir de forma centralizada quién puede defenderse y quién no.

Eso convierte este momento en algo más que un lanzamiento de producto. Es, en el fondo, una reedición del viejo debate entre full disclosure y responsible disclosure, pero con un matiz mucho más inquietante: ahora el “scanner” no es una herramienta pasiva, sino un sistema que puede descubrir, encadenar y operacionalizar vulnerabilidades de forma autónoma. Anthropic ha mostrado ejemplos de Mythos Preview encadenando varias vulnerabilidades para escapar de sandboxing y elevar privilegios; OpenAI, por su parte, justifica su despliegue progresivo precisamente porque espera modelos todavía más capaces en los próximos meses.

La diferencia real, por tanto, no está en si estas capacidades son peligrosas. Ambas compañías parecen estar de acuerdo en que lo son. La diferencia está en su hipótesis de gobernanza. Anthropic actúa como si un modelo de esta clase debiera tratarse casi como un sistema altamente restringido: primero se limita el perímetro, luego se aprende a controlarlo. OpenAI actúa como si la mejor defensa fuera construir desde ya la infraestructura de acceso, verificación y supervisión que permita que esas capacidades lleguen a muchos más defensores legítimos.

Para cualquier CISO, esa divergencia abre una pregunta incómoda: ¿genera mejores resultados “armar a los mejores” o “armar a todos los verificados”? La intuición histórica en seguridad favorece la difusión amplia de capacidades defensivas: a menudo, la transparencia y la disponibilidad de herramientas acaban superando a la seguridad basada en la opacidad. Pero esta vez la escala cambia el cálculo. No estamos hablando de dar acceso a un escáner mejorado o a un framework más cómodo, sino a modelos que ya muestran capacidad para encontrar fallos que sobrevivieron durante años a revisión humana y testing automatizado.

Y ese puede ser el punto más importante de todos: estos programas no son solo políticas de acceso para el presente. Son la infraestructura de control que cada compañía está construyendo para la siguiente generación de modelos. Anthropic parece estar diseñando un régimen de acceso estrecho para capacidades que considera demasiado potentes para una liberación amplia. OpenAI está construyendo un régimen de acceso escalable basado en identidad, legitimidad de uso y supervisión.En ambos casos, el mensaje implícito es el mismo: las capacidades van a seguir creciendo, y el verdadero producto estratégico ya no es solo el modelo, sino el sistema que decide quién puede usarlo, para qué y bajo qué condiciones.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación

OpenAI Trusted Access for Cyber es un programa de OpenAI para dar acceso a capacidades avanzadas de IA aplicadas a ciberseguridad, pero de forma controlada y basada en verificación de identidad y confianza. OpenAI lo presentó el 5 de febrero de 2026 como un marco pensado para que herramientas con gran potencial defensivo lleguen antes a profesionales legítimos de ciberseguridad, sin abrirlas sin filtro a cualquiera.
En la práctica, el programa busca resolver un problema de doble uso: los mismos modelos que ayudan a encontrar vulnerabilidades, analizar malware o revisar software también podrían emplearse con fines ofensivos. Por eso, OpenAI plantea un sistema por niveles, donde los usuarios verificados pueden obtener menos fricción en tareas de seguridad y, en los niveles más altos, acceso a modelos más permisivos para trabajo defensivo avanzado.
Cuando OpenAI amplió el programa el 14 de abril de 2026, explicó que Trusted Access for Cyber ya no se limitaría a un grupo pequeño, sino que se escalaría a miles de defensores individuales verificados y cientos de equipos de seguridad. En ese contexto también presentó GPT-5.4-Cyber, una versión afinada para ciberseguridad defensiva, con menos restricciones para casos legítimos como ingeniería inversa binaria, análisis de malware o evaluación de robustez de software sin acceso al código fuente.
Dicho en simple: Trusted Access for Cyber es la infraestructura de acceso de OpenAI para poner capacidades potentes de ciberseguridad en manos de defensores verificados, con controles, niveles de confianza y salvaguardas. ↩︎
Anthropic Mythos, o más exactamente Claude Mythos, es un modelo de IA de Anthropic que la propia compañía presenta como su sistema más capaz hasta la fecha para tareas de ciberseguridad, especialmente descubrimiento y encadenamiento de vulnerabilidades. Anthropic lo anunció el 7 de abril de 2026 y lo describe como un modelo generalista, pero con un rendimiento “especialmente llamativo” en seguridad ofensiva y defensiva.
Lo relevante es que no lo está distribuyendo de forma abierta. En lugar de eso, Anthropic lanzó Project Glasswing, un programa restringido para poner Mythos Preview en manos de organizaciones que protegen software e infraestructura crítica. La empresa dice que, por ahora, no prevé una liberación pública general del modelo, precisamente por el nivel de capacidad que ha observado en pruebas internas.
Según Anthropic, Mythos ha sido capaz de encontrar miles de vulnerabilidades zero-day y mostrar comportamientos avanzados como encadenar varios fallos para comprometer sistemas. Por eso la compañía lo trata más como una capacidad de alto riesgo que como un modelo de uso general. Su system card y su risk report lo sitúan dentro de sus evaluaciones de seguridad más sensibles.
Dicho en simple: Anthropic Mythos es su modelo más potente para ciberseguridad, pero distribuido de forma muy controlada por el riesgo que implica. ↩︎