ChatGPT en bioestadística clínica: cuándo ayuda y cuándo puede fallar

Los modelos de lenguaje se han incorporado con rapidez a tareas habituales de investigación clínica: redactar partes de un protocolo, preparar código, estructurar un análisis o generar salidas para un informe. ChatGPT destaca por combinar conversación guiada con un modo de análisis que ejecuta código y facilita visualizaciones, lo que lo hace atractivo para bioestadísticos con presión de plazos. El potencial es real, pero también lo son los riesgos: el sistema puede generar afirmaciones fabricadas, errores numéricos y resultados inestables entre ejecuciones, con impacto directo en conclusiones clínicas.

Dónde aporta valor en el flujo de trabajo

Revisiones sistemáticas y meta-análisis

En revisiones sistemáticas, el apoyo más prometedor es acelerar tareas mecánicas: por ejemplo, proponer cadenas de búsqueda mejoradas con términos controlados y palabras clave, o ayudar a identificar valores plausibles durante la extracción. En meta-análisis, ChatGPT puede actuar como consultor para orientar decisiones (modelo de efectos fijos o aleatorios, heterogeneidad, estimación de varianza entre estudios, construcción de intervalos de confianza, transformaciones para tasas y necesidad de análisis por subgrupos o meta-regresión). Sin embargo, el comportamiento es variable: en un ejemplo de reanálisis repetido en 10 ejecuciones, la estimación global de una tasa osciló notablemente y en algunas ejecuciones se obtuvieron intervalos de confianza implausibles, incluso con límites negativos cuando no se aplicaron transformaciones adecuadas para tasas. Además, opciones recomendables en escenarios con pocos estudios, o transformaciones habituales para tasas, tendieron a no aparecer si el usuario no las preguntaba de forma explícita.

Diagnóstico sin patrón oro y medidas de validez

Para problemas de calidad diagnóstica sin patrón oro, ChatGPT puede ayudar a estructurar el problema como un modelo de clases latentes con dos pruebas condicionalmente independientes en dos poblaciones con prevalencias distintas. En este contexto, suele proporcionar una verosimilitud correcta, explicar cómo maximizarla y proponer procedimientos para obtener intervalos de confianza (por Hessiano o mediante bootstrap). Aun así, el rendimiento práctico depende de detalles numéricos: en scripts generados para R aparecieron problemas de frontera cuando se usaban límites 0 y 1 en la optimización; ajustar los límites a 0,001 y 0,999 permitió resolverlos. La reparametrización logística de prevalencias, sensibilidades y especificidades funcionó especialmente bien para evitar inestabilidades, mientras que el cálculo del Hessiano fue a veces numéricamente inestable y produjo valores no definidos, por lo que el bootstrap resultó una alternativa más robusta.

Variables subrogadas y biomarcadores subrogados

En ensayos clínicos, la discusión sobre variables subrogadas es crítica para la toma de decisiones. Un caso ilustrativo es la surrogación a nivel individual desde un enfoque de teoría de la información: ChatGPT puede explicar conceptos complejos, como información mutua y su relación con mejoras de verosimilitud, y acompañarlo de scripts en R con ejemplos (tablas 2×2, relación con curvas ROC, regresión logística y modelos de Cox). Un límite práctico importante es la fiabilidad de la bibliografía sugerida: el sistema puede recomendar referencias no pertinentes o con identificadores inexactos, por lo que cualquier cita propuesta debe verificarse de manera independiente antes de incorporarla a un informe o protocolo.

Planificación de tamaño muestral en supervivencia

ChatGPT puede ayudar no solo a calcular un tamaño muestral, sino a preparar el texto estructurado para el protocolo y a simular datos para anticipar análisis. En un ejemplo de supervivencia con mediana de 12 meses en el grupo control y 18 meses en el experimental, potencia del 80%, alfa bilateral 0,05, seguimiento de 2 años y pérdidas del 15%, el planteamiento conduce a una razón de riesgos de 0,6667, y un cálculo de referencia arrojó un tamaño total de 334 pacientes (167 por grupo). A pesar de que el esquema de pasos era razonable, al repetir el mismo encargo en 10 ejecuciones se observaron cinco estimaciones distintas, con un rango amplio (desde 78 hasta 665), y el error más consistente fue no incorporar correctamente la proporción de asignación en el denominador de la fórmula de Schoenfeld, lo que infraestimó el número de eventos y, por arrastre, el tamaño muestral. Además, en algunos casos el texto explicativo de cálculos intermedios no coincidía con lo realmente computado en el modo de análisis.

Inferencia causal con cambio de tratamiento

En ensayos con cruce o cambio de tratamiento, el sistema puede ser útil para definir el estimando diana según marcos formales y para motivar el uso de métodos causales avanzados, como ponderación por probabilidad inversa de censura. También puede ayudar a proponer un plan de implementación en R. Sin embargo, en tareas técnicas clave hubo dificultades: en particular, errores al representar relaciones causales mediante grafos acíclicos dirigidos y problemas al implementar de forma adecuada los pesos, lo que obliga a una revisión minuciosa de cada componente antes de confiar en los resultados.

Estudios de simulación y cobertura de intervalos

Para simulaciones tipo Monte Carlo orientadas a evaluar cobertura de intervalos de confianza, ChatGPT suele generar código de simulación razonable, pero puede fallar en la elección del intervalo exacto cuando se le pide desde el inicio. En un ejercicio con diseño de casos y controles, 5000 simulaciones y tamaños muestrales entre 20 y 40, se observó que un modelo tenía dificultades para proponer un intervalo exacto y que la calidad dependía mucho de cómo se redactaba y estructuraba el encargo. Esto refuerza la idea de que la precisión del prompt es determinante cuando el problema es menos frecuente o más especializado.

Traducción de código entre lenguajes

La traducción entre entornos (por ejemplo, R a Python o SPSS a R) suele ser una de las aplicaciones más rentables para ahorrar tiempo, pero no es “copiar y pegar”. En un caso de regresión logística con selección escalonada, al traducir desde R a Python la falta de una implementación equivalente llevó a soluciones heterogéneas: algunos enfoques cambiaron el criterio de selección sin respetar la intención original, y en documentación del propio código se afirmaron cosas incorrectas sobre el criterio utilizado. En SPSS a R ocurrió algo similar: se ofrecieron funciones estándar que optimizan AIC aunque el encargo exigía umbrales de valores p, y aunque en muchos casos se reconocía la discrepancia y se proponían alternativas, en otras ejecuciones la implementación de la selección de variables falló. La conclusión operativa es clara: la traducción puede acelerar, pero requiere verificación de equivalencia estadística y de dependencias de paquetes.

Limitaciones y riesgos que no se deben minimizar

El riesgo central es confiar sin escepticismo en la salida: los modelos pueden “alucinar” hechos y producir afirmaciones estadísticas erróneas que corrompan un estudio. Además, existe aleatoriedad inherente: con el mismo encargo pueden aparecer resultados distintos, y el sistema puede evolucionar con el tiempo, cambiando su comportamiento. En tareas avanzadas, los fallos suelen estar en los detalles: fórmulas aplicadas de forma incompleta, gráficos con deficiencias, discrepancias entre texto y cálculo, o implementación insuficiente de técnicas causales. Por eso, la supervisión experta no es opcional: es parte del proceso.

Mensajes clave

Útil para acelerar tareas rutinarias (borradores, estructura, código base), pero no sustituye el juicio bioestadístico.
La variabilidad entre ejecuciones existe; repetir encargos en sesiones independientes ayuda a estimar estabilidad.
En meta-análisis y diagnóstico, pide de forma explícita decisiones críticas (modelo, transformaciones, intervalos, supuestos) para evitar omisiones.
En tamaño muestral, revisa paso a paso el número de eventos y la correcta incorporación de proporciones y supuestos.
En inferencia causal y traducción de código, valida DAG, pesos, equivalencia de criterios y dependencias de paquetes antes de usar resultados.

Relevancia clínica

Las decisiones clínicas se apoyan en estimaciones, intervalos y supuestos. Si un modelo de lenguaje introduce un error en una transformación, un intervalo de confianza o una implementación de pesos, el impacto no es solo técnico: puede cambiar la interpretación de eficacia, seguridad o validez de una prueba diagnóstica. La promesa de ahorro de tiempo es compatible con el rigor, pero solo si se integra como herramienta supervisada dentro de un flujo de trabajo con controles.

Aplicación práctica

Define el encargo con precisión: contexto clínico, objetivo, estimando, supuestos y formato de salida esperado.
Pide que explicite decisiones (modelo, transformaciones, construcción de intervalos, criterios de selección) y solicita alternativas razonables cuando proceda.
Ejecuta y prueba el código en tu entorno, revisando mensajes, dependencias y coherencia de resultados.
Contrasta texto y cálculo: verifica que los números descritos coinciden con lo computado en el modo de análisis.
Repite en sesiones independientes para detectar inestabilidad y entender el rango plausible de salidas.
Corrige de forma iterativa: confronta errores detectados y solicita ajustes específicos, no genéricos.

Impacto en la práctica clínica

Cuando se usa con control experto, ChatGPT puede reducir tiempos de preparación de análisis, acelerar la traducción de código y facilitar la exploración de enfoques complejos (clases latentes, surrogación, simulación). Su incorporación responsable puede mejorar eficiencia sin perder transparencia, siempre que se mantenga una actitud crítica, se verifiquen resultados y se asuma que la herramienta no garantiza exactitud en tareas avanzadas.

Referencias:

Statistics in Medicine. - ChatGPT as a Tool for Biostatisticians: A Tutorial on Applications, Opportunities, and Limitations

Ramón Bover Freire

Cardiólogo en el H. Clínico San Carlos de Madrid. Coordinador Unidad de Prevención y Rehabilitación Cardiaca. Diplomado en Estadística en Ciencias de la Salud por la Universidad Autónoma de Barcelona. ESADE Executive Education “Dirección de Servicios Integrados de Salud”.

@RamonBover