Las interpretaciones automáticas del electrocardiograma (ECG) están ampliamente implantadas para agilizar la toma de decisiones, pero siguen requiriendo revisión médica. Este trabajo describe con detalle la frecuencia y el patrón de modificaciones que realizan los facultativos sobre los informes preliminares generados por un sistema comercial, con el objetivo de identificar en qué situaciones y sobre qué hallazgos se corrige con mayor frecuencia.
Métodos
Se analizaron de forma retrospectiva 159.630 ECG en reposo registrados entre 2011 y 2023. Se comparó, para cada prueba, el informe preliminar automático con el informe final del médico. Se definió «modificación» como cualquier diferencia textual entre ambos. Se cuantificó la presencia de 69 términos electrocardiográficos predefinidos antes y después de la revisión clínica, clasificando cada término en: sin cambios, eliminado o añadido por el médico. Además, se exploraron asociaciones entre la probabilidad de modificación y variables de contexto (momento de realización) y de señal (frecuencia y anchura del QRS). En el periodo evaluado intervinieron 104 médicos (media de años posgraduación: 24,3±12,9); la mediana de ECG interpretados por médico fue 177 (RIQ 87–994).
Resultados principales
El 31,3% de los informes de ECG (49.889 de 159.630) sufrió algún tipo de modificación tras la revisión médica. La proporción de informes modificados descendió de forma marcada a lo largo del tiempo con la introducción de versiones más recientes del algoritmo: 42,2% en 2011–2012, 25,6% en 2021–2022 y 18,4% en 2023 (tendencia, p<0,001).
Las modificaciones fueron ligeramente más frecuentes cuando el ECG se realizó fuera del horario habitual (54% frente a 52%; p<0,001) y en registros con mayor frecuencia ventricular y QRS más ancho: 86±28 frente a 80±21 lpm (p<0,001) y 103±33 frente a 97±25 ms (p<0,001), respectivamente.
A nivel de término, los médicos añadieron con frecuencia diagnósticos omitidos por el sistema:
- Intervalo QT prolongado: añadido en el 5,6% de los informes (n=2.565) que no lo incluían inicialmente.
- Ritmo sinusal: añadido en el 6,6% (n=1.619).
- Marcapasos ventricular electrónico: añadido en el 3,7% (n=1.826).
En sentido contrario, se eliminaron con frecuencia etiquetas diagnósticas potencialmente inespecíficas o engañosas del informe automático:
- Infarto inferior: eliminado en el 32,0% de los informes que lo contenían; número de eliminaciones nuevas: n=1.925.
- Infarto anterior: eliminado en el 44,6% de los informes que lo contenían; n=1.371.
- Ritmo sinusal: también pudo ser eliminado cuando el etiquetado automático no se consideró adecuado; n=1.245.
Determinados términos mostraron tasas de eliminación especialmente altas cuando aparecían en el informe automático:
- «Sospecha de fallo de marcapasos no especificado»: eliminado en el 90,3% de los casos (n=139).
- «Ritmo seguido auricular con estimulación ventricular»: eliminado en el 92,1% (n=116).
- Patrón de WPW: eliminado en el 84,6% (n=22).
En conjunto, los hallazgos muestran que la revisión clínica no se limita a corregir errores manifiestos, sino que reordena la relevancia diagnóstica: se atenúan etiquetas imprecisas y se incorporan hallazgos con trascendencia clínica (p. ej., QT prolongado o presencia de marcapasos).
Mensajes clave
- El 31,3% de los informes automáticos de ECG fue modificado por el médico.
- Las modificaciones se asociaron a registros realizados fuera de horario y a ECG con mayor frecuencia y QRS más ancho.
- Se añadieron con frecuencia hallazgos clínicamente relevantes omitidos por el sistema (QT prolongado, marcapasos).
- Se eliminaron a menudo etiquetas de infarto («inferior», «anterior») generadas por el algoritmo.
- La tasa de modificaciones disminuyó con versiones más recientes del software (hasta 18,4% en 2023).
Relevancia clínica
La elevada tasa de modificaciones subraya que los informes automáticos del ECG siguen requiriendo supervisión experta. La corrección frecuente de diagnósticos como «infarto inferior/anterior» o la adición de «intervalo QT prolongado» tiene implicaciones directas sobre decisiones terapéuticas, derivaciones y priorización asistencial. Además, el incremento de modificaciones en guardias y en ECG con parámetros extremos sugiere que los casos con mayor complejidad electrofisiológica son los más vulnerables a errores del sistema.
Aplicación práctica
- Flujos de trabajo: mantener la validación sistemática por facultativos, especialmente en guardias y ante ECG con frecuencia elevada o QRS ancho.
- Listas de verificación: comprobar de forma explícita QTc, presencia y tipo de marcapasos y validez de etiquetas de infarto antes de cerrar el informe.
- Formación: priorizar entrenamiento en reconocimiento de patrones propensos a error del algoritmo (p. ej., diagnóstico de isquemia/infarcto y medición de QT).
- Mejora del sistema: usar estos patrones de edición como «datos de oro» para refinar reglas y para entrenar modelos de aprendizaje profundo orientados a hallazgos con mayor impacto clínico.
Impacto en la práctica clínica
Identificar qué se corrige y en qué contexto permite focalizar recursos (tiempo de lectura, doble validación) donde más beneficio aporta. La reducción progresiva de modificaciones con versiones más recientes indica margen real de mejora. Integrar estos hallazgos en la gobernanza de IA clínica puede acortar tiempos de informe, disminuir pruebas innecesarias y reforzar la seguridad del paciente, sin renunciar al criterio médico.
Limitaciones y próximos pasos
Los resultados proceden de un único entorno y de un sistema comercial concreto, lo que puede limitar la generalización. La distribución de lecturas por médico estuvo sesgada hacia un pequeño grupo con alto volumen, pese al muestreo aleatorio aplicado. La categorización de términos, aunque realizada por clínicos experimentados, conlleva cierto grado de juicio subjetivo. No se evaluó la asociación con desenlaces clínicos posteriores.
Conclusión
En un gran conjunto de ECG del mundo real, uno de cada tres informes automáticos se modificó por el médico. Las ediciones se concentraron en situaciones de mayor complejidad y en términos con mayor peso clínico. Estos patrones de modificación describen límites de los sistemas basados en reglas y proporcionan una hoja de ruta para su mejora e integración segura: más precisión en QT y marcapasos, menos etiquetas inespecíficas de infarto, y validación clínica constante.
Referencias:
- Eur Heart J Digit Health. - Factors associated with physician modifications to automated ECG interpretations
Ramón Bover Freire





























