El camino hacia la superinteligencia médica

El camino hacia la superinteligencia médica

El equipo de Microsoft AI ha compartido investigaciones que demuestran como la IA puede resolver desafíos diagnósticos complejos.

Casos que incluso los médicos expertos tienen dificultades para resolver.

Comparado con registros de casos reales publicados cada semana en el New England Journal of Medicine, el Microsoft AI Diagnostic Orchestrator (MAI-DxO) diagnostica correctamente hasta el 85 % de los casos clínicos del NEJM, una tasa más de cuatro veces superior a la de un grupo de médicos experimentados. MAI-DxO también llega al diagnóstico correcto de forma más rentable que los médicos.

A medida que la demanda de atención médica continúa creciendo, los costes aumentan a un ritmo insostenible y miles de millones de personas enfrentan múltiples barreras para una mejor salud, incluyendo diagnósticos inexactos y retrasados. Cada vez más, las personas recurren a herramientas digitales para obtener asesoramiento y apoyo médico. En los productos de consumo con IA de Microsoft como Bing y Copilot, se producen más de 50 millones de sesiones relacionadas con la salud cada día. Desde una primera consulta sobre dolor de rodilla hasta una búsqueda nocturna de una clínica de urgencias, los motores de búsqueda y los asistentes de IA se están convirtiendo rápidamente en la nueva primera línea de atención médica.

Microsoft quiere hacer más para ayudar, y por eso a finales de 2024, lanzaron una iniciativa dedicada a la salud del consumidor en Microsoft AI, liderada por médicos, diseñadores, ingenieros y científicos de IA. Este esfuerzo complementa las iniciativas de salud más amplias de Microsoft y se basa en su compromiso de larga data con la colaboración y la innovación. Las soluciones existentes incluyen RAD-DINO, que ayuda a acelerar y mejorar los flujos de trabajo en radiología, y Microsoft Dragon Copilot, su pionero asistente de IA por voz para médicos.

Para que la IA marque la diferencia, tanto los médicos como los pacientes deben poder confiar en su rendimiento. Ahí es donde entran los nuevos puntos de referencia y el orquestador de IA.

Desafíos y puntos de referencia en casos médicos

Para ejercer la medicina en Estados Unidos, los médicos deben aprobar el Examen de Licencia Médica de los Estados Unidos (USMLE), una evaluación rigurosa y estandarizada del conocimiento clínico y la toma de decisiones. Las preguntas del USMLE fueron algunos de los primeros puntos de referencia utilizados para evaluar sistemas de IA en medicina, ofreciendo una forma estructurada de comparar el rendimiento de los modelos, tanto entre sí como frente a médicos humanos.

En solo tres años, la IA generativa ha avanzado hasta el punto de obtener puntuaciones casi perfectas en el USMLE y exámenes similares. Pero estas pruebas se basan principalmente en preguntas de opción múltiple, que favorecen la memorización sobre la comprensión profunda. Al reducir la medicina a respuestas únicas en preguntas de opción múltiple, estos puntos de referencia sobrestiman la competencia aparente de los sistemas de IA y ocultan sus limitaciones.

En Microsoft AI, se está trabajando para avanzar y evaluar las capacidades de razonamiento clínico. Para ir más allá de las limitaciones de las preguntas de opción múltiple, se han centrado en el diagnóstico secuencial, una piedra angular de la toma de decisiones médicas en el mundo real. En este proceso, un médico comienza con una presentación inicial del paciente y luego selecciona iterativamente preguntas y pruebas diagnósticas hasta llegar a un diagnóstico final. Por ejemplo, un paciente que presenta tos y fiebre puede llevar al médico a ordenar y revisar análisis de sangre y una radiografía de tórax antes de sentirse seguro de diagnosticar una neumonía.

Cada semana, el New England Journal of Medicine (NEJM), una de las revistas médicas más prestigiosas del mundo, publica un Caso Clínico del Hospital General de Massachusetts, presentando el recorrido de atención de un paciente en un formato narrativo detallado. Estos casos se encuentran entre los más complejos y exigentes desde el punto de vista diagnóstico, y a menudo requieren múltiples especialistas y pruebas para llegar a un diagnóstico definitivo.

¿Cómo se desenvuelve la IA? Para responder a esto, Microsoft AI creó desafíos de casos interactivos basados en la serie de casos del NEJM, lo que llamaron el Sequential Diagnosis Benchmark (SD Bench). Este punto de referencia transforma 304 casos recientes del NEJM en encuentros diagnósticos paso a paso donde los modelos —o médicos humanos— pueden hacer preguntas y ordenar pruebas de forma iterativa. A medida que se dispone de nueva información, el modelo o el médico actualiza su razonamiento, acercándose gradualmente a un diagnóstico final. Este diagnóstico puede compararse con el resultado estándar publicado en el NEJM.

Cada investigación solicitada también conlleva un coste (virtual), que refleja los gastos reales en atención médica. Esto nos permite evaluar el rendimiento en dos dimensiones clave: precisión diagnóstica y gasto en recursos. Puedes ver cómo un sistema de IA avanza en uno de estos desafíos en este breve vídeo:

Cómo MAI-DxO resuelve un caso

Se evaluaron un conjunto completo de modelos de IA generativa de vanguardia frente a los 304 casos del NEJM. Los modelos base probados incluyeron GPT, Llama, Claude, Gemini, Grok y DeepSeek.

Más allá de las pruebas básicas, se desarrolló el Microsoft AI Diagnostic Orchestrator (MAI-DxO), un sistema diseñado para emular un panel virtual de médicos con enfoques diagnósticos diversos que colaboran para resolver casos. Orquestar múltiples modelos lingüísticos será clave para gestionar flujos de trabajo clínicos complejos. Los orquestadores pueden integrar diversas fuentes de datos de forma más eficaz que los modelos individuales, al tiempo que mejoran la seguridad, la transparencia y la adaptabilidad ante necesidades médicas cambiantes. Este enfoque independiente del modelo promueve la posibilidad de auditar y la resiliencia, atributos clave en entornos clínicos de alto riesgo y rápida evolución.

MAI-DxO convierte cualquier modelo lingüístico en un panel virtual de médicos: puede hacer preguntas de seguimiento, ordenar pruebas o emitir un diagnóstico, luego verificar costes y revisar su razonamiento antes de decidir si continuar.
MAI-DxO convierte cualquier modelo lingüístico en un panel virtual de médicos: puede hacer preguntas de seguimiento, ordenar pruebas o emitir un diagnóstico, luego verificar costes y revisar su razonamiento antes de decidir si continuar.

MAI-DxO mejoró el rendimiento diagnóstico de todos los modelos que se probaron. La mejor configuración fue MAI-DxO combinado con OpenAI o3, que resolvió correctamente el 85,5 % de los casos del NEJM. En comparación, se evaluaron a 21 médicos en ejercicio de EE. UU. y el Reino Unido, cada uno con entre 5 y 20 años de experiencia clínica. En las mismas tareas, estos expertos lograron una precisión media del 20 %.

MAI-DxO es configurable, lo que le permite operar dentro de límites de coste definidos. Esto permite explorar explícitamente las compensaciones entre coste y valor inherentes a la toma de decisiones diagnósticas. Sin tales límites, un sistema de IA podría ordenar todas las pruebas posibles, sin considerar el coste, la incomodidad del paciente o los retrasos en la atención. Lo importante es que MAI-DxO ofreció tanto mayor precisión diagnóstica como menores costes de pruebas que los médicos o cualquier modelo base individual probado.

Comparación de agentes de diagnóstico impulsados por IA según su precisión y el coste medio por prueba diagnóstica por caso.
Los agentes con mejor rendimiento aparecen en el cuadrante superior izquierdo, lo que refleja una mayor precisión y un menor coste.
La línea de puntos inferior representa el rango de rendimiento de los mejores modelos base individuales.
La línea morada traza el rendimiento de MAI-DxO en distintas configuraciones.
La cruz roja indica el rendimiento medio de 21 médicos en ejercicio.
Comparación de agentes de diagnóstico impulsados por IA según su precisión y el coste medio por prueba diagnóstica por caso. Los agentes con mejor rendimiento aparecen en el cuadrante superior izquierdo, lo que refleja una mayor precisión y un menor coste. La línea de puntos inferior representa el rango de rendimiento de los mejores modelos base individuales. La línea morada traza el rendimiento de MAI-DxO en distintas configuraciones.
La cruz roja indica el rendimiento medio de 21 médicos en ejercicio.

¿Y ahora qué?

Los médicos suelen caracterizarse por la amplitud o la profundidad de su experiencia. Los generalistas, como los médicos de familia, manejan una amplia gama de condiciones. Los especialistas, como los reumatólogos, se enfocan profundamente en un sistema o enfermedad. Ningún médico puede abarcar toda la complejidad de los casos del NEJM. La IA, en cambio, no enfrenta esta limitación. Puede combinar amplitud y profundidad, demostrando capacidades de razonamiento clínico que, en muchos aspectos, superan a las de cualquier médico individual.

Este tipo de razonamiento tiene el potencial de transformar la atención médica. La IA podría permitir a los pacientes gestionar aspectos rutinarios de su atención y proporcionar a los médicos apoyo avanzado para casos complejos. Los hallazgos de Microsoft AI también sugieren que la IA puede reducir costes innecesarios. El gasto sanitario en EE. UU. se acerca al 20 % del PIB, y se estima que hasta el 25 % de ese gasto es innecesario.

Por supuesto, esta investigación tiene limitaciones importantes. Aunque MAI-DxO sobresale en los desafíos diagnósticos más complejos, se necesita más evaluación para medir su rendimiento en presentaciones más comunes. Los médicos del estudio trabajaron sin acceso a colegas, libros de texto o IA generativa, lo cual puede formar parte de su práctica habitual. Esto se hizo para permitir una comparación justa con el rendimiento humano puro.

Un aspecto novedoso de este trabajo es su atención al coste. Aunque los costes reales varían según la geografía y el sistema, y abarcan muchos factores posteriores que no consideramos, aplicamos una metodología coherente para todos los agentes y médicos evaluados, con el fin de cuantificar las compensaciones entre precisión diagnóstica y uso de recursos.

Para Microsoft AI, esto es solo el primer paso y se avecinan oportunidades. Aún quedan desafíos importantes antes de que la IA generativa pueda desplegarse de forma segura y responsable en la atención médica. Se necesita evidencia de entornos clínicos reales, junto con marcos regulatorios adecuados para garantizar fiabilidad, seguridad y eficacia. Por eso están colaborando con organizaciones sanitarias líderes para probar y validar rigurosamente estos enfoques, un paso esencial antes de cualquier implementación más amplia.

El futuro de la atención médica se definirá por la combinación de la experiencia y empatía humanas con el poder de la inteligencia artificial.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación de Microsoft.AI: «The Path to Medical Superintelligence«.

Resume o comparte este contenido a través de:

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.