De la anamnesis al alta hospitalaria, MIRA gestiona el proceso clínico completo con IA autónoma

La integración de la inteligencia artificial en los sistemas de información clínica representa uno de los desafíos más urgentes de la medicina contemporánea. Los grandes modelos de lenguaje han demostrado capacidades notables en pruebas de razonamiento médico, pero su aplicación en entornos clínicos reales ha permanecido limitada a tareas aisladas o asistentes de texto libre, sin integración efectiva en los flujos de trabajo. MIRA (Medical Intelligence for Reasoning and Action) supone un avance sustancial: se trata de un agente de inteligencia artificial médica autónomo que opera dentro de un entorno simulado de historia clínica electrónica (HCE), capaz de completar el proceso asistencial desde la anamnesis hasta la decisión de ingreso hospitalario [1].

MIRA: arquitectura de un agente de inteligencia artificial médica autónomo en la historia clínica electrónica

MIRA opera en un entorno HCE aislado (sandbox), compatible con el estándar HL7 FHIR y con seis sistemas de codificación médica internacionales: ICD-9/10, LOINC, ATC, NDC, RxNorm y SNOMED-CT. El sistema dispone de 11 herramientas que le permiten ejecutar más de 85.000 acciones clínicas diferentes: recabar la historia clínica mediante diálogo con un agente-paciente, solicitar exploraciones físicas, analíticas de sangre y orina, estudios microbiológicos y pruebas de imagen, así como prescribir tratamientos farmacológicos y programar procedimientos quirúrgicos.

La evaluación se realizó sobre 574 casos reales de pacientes procedentes de la base de datos MIMIC-IV (Beth Israel Deaconess Medical Center, Boston), abarcando ocho diagnósticos: apendicitis, colecistitis, diverticulitis, pancreatitis, embolia pulmonar, infección urinaria, neumonía y cáncer de páncreas. La actuación de MIRA se comparó con la de dos cohortes independientes de médicos: cuatro especialistas certificados con 7 a 11 años de experiencia clínica, y seis médicos de experiencia mixta (cuatro residentes y dos adjuntos), en condiciones idénticas para todos los grupos.

Precisión diagnóstica del agente de IA médica frente a médicos en el servicio de urgencias

En el conjunto completo de 574 casos, MIRA alcanzó una precisión diagnóstica media del 88,9%, con los valores más elevados en apendicitis (98,6%) y pancreatitis (92,3%), y los más bajos en neumonía (72,4%) e infección urinaria (77,6%). La comparación directa frente a cuatro especialistas certificados mostró una precisión del 87,8% para MIRA frente al 78,1% de los especialistas (P < 0,001), y frente al 71,1% del cohorte de experiencia mixta (P < 0,001).

La mayor diferencia se observó en pancreatitis, donde MIRA obtuvo una precisión del 95,2% frente al 78,6% de los especialistas (P < 0,05) y al 61,9% del cohorte mixto (P < 0,001). En embolia pulmonar y colecistitis, las diferencias fueron más discretas. En cáncer de páncreas, la actuación del agente fue equivalente a la de los especialistas certificados.

Flujo de trabajo clínico y solicitud de pruebas diagnósticas

MIRA siguió un flujo de trabajo escalonado, análogo al de los médicos, progresando desde pasos menos invasivos como la anamnesis y las analíticas hasta la solicitud de procedimientos quirúrgicos. Solicitó exploración física en el 97,1% de los casos, frente al 87,8% de los especialistas (P < 0,001). En analíticas de sangre, cubrió el 51,1% de los parámetros disponibles frente al 28,3% de los especialistas (P < 0,001), sin que esto se tradujera en un incremento sistemático de pruebas de imagen de mayor coste; la utilización global permaneció por debajo de la línea de referencia histórica de MIMIC-IV.

En la identificación y solicitud de procedimientos terapéuticos, MIRA identificó correctamente el 53,5% de los procedimientos de referencia frente al 38,3% de los especialistas. Fue especialmente preciso en apendicitis (coincidencia directa del 100% con el código de apendicectomía laparoscópica en los 124 casos correctamente diagnosticados) y en colecistitis (90,6%). Las mayores discordancias respecto al conjunto de referencia se observaron en pancreatitis, cáncer de páncreas y embolia pulmonar.

Seguridad farmacológica y adherencia a guías clínicas

En el análisis de seguridad de 56 pacientes evaluados de forma exhaustiva, no se detectaron interacciones farmacológicas de alta gravedad, errores de dosificación renal, discordancias por alergias, prescripciones con riesgo de prolongación del intervalo QTc ni prescripciones inseguras de opioides. Solo se identificaron tres casos de duplicidad terapéutica, todos considerados clínicamente razonables. La precisión en las instrucciones de dosificación en texto libre fue del 99,8%, con correcta especificación del valor numérico de dosis en el 97,6% y de la unidad en el 98,3% de las 468 prescripciones evaluadas.

Respecto a la adherencia a guías clínicas internacionales, MIRA superó a ambas cohortes de médicos en la mayoría de las categorías evaluadas, con una diferencia media de +35 puntos porcentuales frente a los especialistas y +36 frente al cohorte mixto (prueba de Wilcoxon, P < 0,001). En pancreatitis, fue significativamente más probable que prescribiese fluidoterapia intravenosa (P < 0,001) y analgesión conforme a las guías. En las decisiones de ingreso hospitalario, la sensibilidad fue del 100% tanto en neumonía como en embolia pulmonar, sin ningún falso negativo; aunque se observó una tendencia a la sobreestimación del riesgo en embolia pulmonar (P < 0,05 en prueba de McNemar).

Robustez ante sesgos y limitaciones del estudio

El agente mantuvo un rendimiento diagnóstico estable ante seis escenarios de sesgo predefinidos: sexo distinto, negación de enfermedad, sesgo de recencia, ansiedad, y uso exclusivo del alemán o el francés. Las diferencias en la tasa de errores diagnósticos oscilaron entre –1,2 y –10,0 puntos porcentuales, sin alcanzar significación estadística tras el ajuste de Holm en ninguno de los análisis por diagnóstico. La reconciliación de la medicación previa al ingreso mostró una recuperación del 95,2% y una precisión del 99,6% a nivel del nombre del fármaco.

Entre las principales limitaciones, las interacciones del paciente se simularon a partir de resúmenes de alta, que pueden ser más estructurados que el lenguaje espontáneo de un paciente real en urgencias. La posible inclusión de la base de datos MIMIC-IV en el corpus de entrenamiento del modelo subyacente podría sobreestimar la generalización. Los autores subrayan que MIRA no está concebido para sustituir a los profesionales sanitarios, sino para colaborar con ellos bajo supervisión médica explícita, siendo la validación prospectiva en entornos reales el paso necesario antes de cualquier implementación clínica.

Mensajes clave

MIRA es un agente de inteligencia artificial médica autónomo integrado en la historia clínica electrónica que alcanzó una precisión diagnóstica del 88,9% en 574 casos con ocho diagnósticos, superando a especialistas certificados (78,1%, P < 0,001) y a un cohorte de experiencia mixta (71,1%, P < 0,001).
En procedimientos quirúrgicos, identificó el 53,5% de los procedimientos de referencia frente al 38,3% de los especialistas, con coincidencia directa del 100% en apendicectomía laparoscópica en todos los casos correctamente diagnosticados.
No se detectaron interacciones farmacológicas de alta gravedad, errores de dosificación renal, discordancias por alergias ni prescripciones con riesgo QTc en los 56 pacientes evaluados de forma exhaustiva.
La adherencia a guías clínicas internacionales fue significativamente superior en MIRA respecto a los médicos evaluados (+35 puntos porcentuales frente a especialistas, P < 0,001).
La sensibilidad para identificar pacientes que requieren ingreso hospitalario fue del 100% en neumonía y embolia pulmonar, sin ningún falso negativo.

Relevancia y aplicación clínica

Los hallazgos de este estudio sitúan a los agentes de inteligencia artificial médica autónoma como herramientas con potencial clínico real para el apoyo a la toma de decisiones en urgencias. La capacidad de MIRA para ejecutar un proceso asistencial completo, desde la anamnesis hasta la decisión de ingreso, con precisión diagnóstica superior a la de los médicos evaluados y un perfil de seguridad farmacológica robusto, representa un hito en la integración de la IA en los flujos de trabajo hospitalarios.

Las aplicaciones más plausibles a corto plazo incluyen la conciliación automática de la medicación previa al ingreso, la elaboración de baterías analíticas ajustadas a las guías y la generación de solicitudes de consulta interhospitalaria, todo ello bajo supervisión médica explícita. Estas funciones permitirían redirigir la atención de los profesionales sanitarios hacia la interacción directa con el paciente, área en la que los sistemas actuales de IA tienen limitaciones reconocidas. Cabe destacar que el incremento en la solicitud de analíticas no se tradujo en un aumento del uso de pruebas de imagen costosas, lo que sugiere un perfil de consumo de recursos asumible.

La validación prospectiva en entornos clínicos reales será imprescindible antes de cualquier implementación, dado que las simulaciones con datos retrospectivos no capturan plenamente la variabilidad del lenguaje espontáneo del paciente ni las particularidades de cada sistema de HCE. El agente de inteligencia artificial médica autónoma MIRA supone, no obstante, el avance más ambicioso hasta la fecha en el desarrollo de sistemas de IA aplicados a procesos clínicos integrales en urgencias.

Referencias:

Nature. - Towards autonomous medical artificial intelligence agents

Ramón Bover Freire

Cardiólogo en el H. Clínico San Carlos de Madrid. Coordinador Unidad de Prevención y Rehabilitación Cardiaca. Diplomado en Estadística en Ciencias de la Salud por la Universidad Autónoma de Barcelona. ESADE Executive Education “Dirección de Servicios Integrados de Salud”.

@RamonBover