ChatGPT Agent: Un agente que trabaja contigo y para ti

ChatGPT Agent: Un agente que trabaja contigo y para ti

ChatGPT Agent es el siguiente nivel de los sistemas de IA y puede realizar tareas complejas y sorprendentes utilizando su ordenador.

ChatGPT Agent combina el espíritu de Deep Research y Operator, pero es más potente de lo que eso sugiere: puede pensar durante un buen rato, usar herramientas, volver a pensar, tomar acciones, volver a pensar, etc.

Ahora puedes pedirle a ChatGPT que gestione solicitudes como:

  • “Revisa mi calendario y hazme un resumen de las próximas reuniones con clientes basándote en noticias recientes”,
  • “Planifica y compra los ingredientes para preparar un desayuno japonés para cuatro personas”,
  • o “Analiza a tres competidores y crea una presentación en diapositivas”.

ChatGPT navegará por sitios web de forma inteligente, filtrará resultados, te pedirá iniciar sesión de forma segura cuando sea necesario, ejecutará código, realizará análisis e incluso entregará presentaciones y hojas de cálculo editables que resumen sus hallazgos.

En el núcleo de esta nueva capacidad se encuentra un sistema agente unificado. Reúne tres fortalezas de avances anteriores:

  • la capacidad de Operator para interactuar con sitios web,
  • la habilidad de Deep Research para sintetizar información,
  • y la inteligencia y fluidez conversacional de ChatGPT.

ChatGPT lleva a cabo estas tareas utilizando su propio ordenador virtual, alternando de forma fluida entre razonamiento y acción para gestionar flujos de trabajo complejos de principio a fin, todo basado en tus instrucciones.

Lo más importante: tú siempre tienes el control. ChatGPT solicita permiso antes de realizar acciones importantes, y puedes interrumpir, tomar el control del navegador o detener las tareas en cualquier momento.

Estas nuevas capacidades de agente de ChatGPT se pueden activar directamente desde el menú de herramientas del compositor, seleccionando “modo agente” en cualquier momento de una conversación.

Aunque el agente de ChatGPT ya es una herramienta potente para gestionar tareas complejas, el lanzamiento de hoy es solo el comienzo. Seguiremos incorporando mejoras importantes de forma iterativa, haciéndolo cada vez más capaz y útil para más personas con el tiempo.

Un agente que trabaja para ti y contigo

Se ha equipado al agente de ChatGPT con un conjunto de herramientas:

  • un navegador visual que interactúa con la web mediante una interfaz gráfica,
  • un navegador basado en texto para consultas web más simples y basadas en razonamiento,
  • un terminal,
  • y acceso directo a APIs.

El agente también puede aprovechar los conectores de ChatGPT⁠, lo que permite conectar aplicaciones como Gmail o GitHub para que ChatGPT pueda encontrar información relevante para tus peticiones y utilizarla en sus respuestas. También puedes iniciar sesión en cualquier sitio web tomando el control del navegador, lo que le permite profundizar y ampliar tanto su investigación como la ejecución de tareas.

Dar a ChatGPT estas diferentes vías para acceder e interactuar con la información web significa que puede elegir el camino óptimo para realizar las tareas de forma más eficiente. Por ejemplo, puede obtener información de tu calendario a través de una API, razonar eficazmente sobre grandes volúmenes de texto usando el navegador de texto, y al mismo tiempo interactuar visualmente con sitios diseñados principalmente para humanos.

Todo esto se realiza utilizando su propio ordenador virtual, que conserva el contexto necesario para la tarea incluso cuando se utilizan varias herramientas. El modelo puede, por ejemplo, abrir una página con el navegador de texto o visual, descargar un archivo de la web, manipularlo ejecutando un comando en el terminal y luego visualizar el resultado en el navegador visual. El modelo adapta su enfoque para llevar a cabo tareas con rapidez, precisión y eficiencia.

Diseñado para flujos de trabajo iterativos y colaborativos

El agente de ChatGPT está diseñado para flujos de trabajo mucho más interactivos y flexibles que los modelos anteriores. Mientras trabaja, puedes interrumpirlo en cualquier momento para aclarar instrucciones, redirigirlo hacia un resultado deseado o cambiar completamente la tarea. Retomará desde donde lo dejó, ahora con la nueva información, pero sin perder el progreso anterior.

Del mismo modo, ChatGPT puede solicitarte proactivamente detalles adicionales cuando lo necesite para asegurarse de que la tarea se mantenga alineada con tus objetivos. Si una tarea tarda más de lo esperado o parece atascada, puedes pausarla, pedirle un resumen del progreso o detenerla por completo y recibir los resultados parciales.

Y si tienes la app de ChatGPT en tu móvil, recibirás una notificación cuando haya terminado la tarea.

Utilidad y riesgo

Aunque su utilidad es significativa, también lo son los riesgos potenciales.

Se han incorporado muchas medidas de seguridad y advertencias, así como mitigaciones más amplias que nunca: desde un entrenamiento robusto hasta salvaguardas del sistema y controles para el usuario. Pero no se puede anticipar todo. En el espíritu de un despliegue iterativo, se va a advertir intensamente a los usuarios y darles libertad para actuar con precaución si así lo desean.

Es una oportunidad de probar el futuro, pero no algo que debería usarse aún para tareas críticas o con información personal sensible hasta que OpenAI pueda estudiarlo y mejorarlo en condiciones reales.

No se sabe con exactitud cuáles serán los impactos, pero actores malintencionados podrían intentar “engañar” a los agentes de IA de los usuarios para obtener información privada o provocar acciones indebidas, de formas que a día de hoy no se pueden prever. Se recomendable conceder a los agentes el acceso mínimo necesario para completar una tarea, con el fin de reducir los riesgos de privacidad y seguridad.

Por ejemplo, le podemos dar acceso a Agent a nuestro calendario para encontrar una hora adecuada para una cena en grupo. Pero no necesito darle ningún acceso si solo le estoy pidiendo que me compre ropa.

Hay más riesgo en tareas como: “Revisa mis correos de la noche y haz lo que sea necesario para gestionarlos, sin hacerme preguntas de seguimiento”. Esto podría llevar a que un contenido no fiable de un correo malicioso engañe al modelo y provoque una filtración de datos.

Es importante empezar a aprender del contacto con la realidad, y que las personas adopten estas herramientas con cuidado y de forma gradual, mientras cuantificamos y mitigamos mejor los riesgos implicados. Como ocurre con otros avances tecnológicos, la sociedad, la tecnología y las estrategias de mitigación de riesgos deberán evolucionar conjuntamente.

🤖 ¿Qué es el agente ChatGPT?

Es un sistema autónomo que combina capacidades de navegación web (“Operator”) con investigación avanzada, junto con las habilidades conversacionales de ChatGPT. Así, puede pensar, decidir y realizar acciones complejas por ti en la web, desde un entorno de navegador virtual integrando clics, formularios, filtrado e inicio de sesión seguros.

🧠 Funcionalidades principales

  • Realiza tareas end-to-end: investiga, rellena formularios, recupera datos, ejecuta código, y crea entregables editables (como presentaciones o hojas de cálculo).
  • Sigue instrucciones del usuario: “consulta mi calendario y resúmeme las próximas reuniones con clientes” o “analiza tres competidores y crea una presentación».

🛡️ Seguridad y control

  • Control total del usuario: pide confirmación antes de realizar acciones sensibles; permite interrupciones en cualquier momento o tomar el control del navegador.
  • Protección activa: rechaza tareas de alto riesgo, previene ataques de “prompt injection” y adopta una jerarquía de instrucciones.
  • Privacidad: los datos del navegador no se almacenan en los servidores de OpenAI. Las cookies y sesiones pueden borrarse manualmente.

📊 Rendimiento destacado

  • Establece nuevos récords en varios benchmarks:
    • “Humanity’s Last Exam”: 43,1 % (SOTA).
    • SpreadsheetBench: el agente alcanza 45,5 % comparado con el 20 % de Copilot en Excel.
    • Supera modelos anteriores en DSBench, WebArena y BrowseComp, mostrando eficacia en análisis de datos y navegación web.

🏗️ Implementación y estado actual

  • Ya disponible desde el 17 de julio de 2025 para usuarios Pro, Plus y Team.
  • Usuarios Pro: uso casi ilimitado de tareas. Otras suscripciones: 50 tareas mensuales + posibilidad de ampliar con créditos.

🔮 Hacia dónde va

  • Lanzamiento inicial con funciones de presentación en fase beta: elementos básicos pero editables.
  • En desarrollo mejoras en formato, estilo, conectores API y eficiencia.
  • Se espera añadir funcionalidades más pulidas y reducir errores conforme avance la integración de capacidades autónomas.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación Introducing ChatGPT agent: bridging research and action de OpenAI.

Resume o comparte este contenido a través de:

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.