La empatía es un componente central de la relación asistencial. Se asocia con mejores resultados para el paciente, mayor satisfacción con la atención y menores niveles de dolor y ansiedad; por el contrario, su ausencia puede causar daño. En paralelo, el uso de chatbots basados en inteligencia artificial (IA) en el ámbito sanitario está creciendo con rapidez. En algunos entornos, la IA generativa ya se utiliza para tareas de apoyo, como la redacción de cartas o mensajes. En este escenario surge una pregunta relevante: cuando el contacto con el paciente se realiza por escrito, ¿puede un chatbot generar respuestas percibidas como más empáticas que las de un profesional sanitario?
Una revisión sistemática y metaanálisis recientes abordaron esta cuestión comparando la empatía atribuida a respuestas generadas por chatbots basados en grandes modelos de lenguaje frente a respuestas humanas de profesionales sanitarios. El foco se situó en interacciones de texto (mensajes, correos electrónicos o preguntas procedentes de entornos clínicos y no clínicos), precisamente donde estos sistemas se están integrando de forma más visible.
La evidencia sintetizada comparó, de forma directa, la empatía percibida en respuestas de chatbots conversacionales capaces de diálogo no guionizado (por ejemplo, modelos tipo GPT) frente a respuestas elaboradas por profesionales sanitarios. La comparación se centró en medidas de empatía aplicadas a las respuestas, no en la exactitud clínica de las recomendaciones. Aun así, el propio trabajo subraya que cualquier ventaja en empatía debe interpretarse en un marco de seguridad: una comunicación cálida no compensa una recomendación errónea.
La revisión identificó 15 estudios publicados entre 2023 y 2024. En 13 de las 15 comparaciones, los chatbots mostraron una ventaja estadísticamente significativa en empatía percibida frente a profesionales sanitarios. Las dos excepciones se situaron en dermatología, donde las respuestas humanas fueron valoradas como más empáticas que las generadas por IA.
La mayoría de estudios se basaron exclusivamente en interacciones por texto. En uno de ellos, el habla del paciente se transcribió a texto para que el modelo generase la respuesta y, posteriormente, esa respuesta se convirtió en audio; sin embargo, las valoraciones de empatía se realizaron sobre la transcripción escrita. En cuanto a la procedencia de las preguntas, varios estudios utilizaron correos electrónicos o registros de mensajería de historiales o sistemas internos, mientras que otros recurrieron a preguntas publicadas en foros online y redes sociales. En conjunto, las comparaciones abarcaron distintos contextos y especialidades, lo que aporta amplitud, pero también introduce variabilidad.
Los comparadores humanos variaron: desde médicos (a veces sin una especialidad especificada) hasta especialistas concretos, además de profesionales no médicos (por ejemplo, personal de enfermería o perfiles de atención al paciente) en algunos trabajos. Del mismo modo, quienes puntuaron la empatía incluyeron observadores con diferentes perfiles (profesionales sanitarios, personas legas, estudiantes o “proxies” de pacientes), lo que contribuye a la heterogeneidad entre estudios.
Cómo se midió la empatía
La medición de la empatía fue heterogénea. Salvo un estudio que utilizó una escala validada (CARE), el resto empleó herramientas no validadas o adaptadas al contexto: escalas tipo Likert de un solo ítem (frecuentemente de 1 a 5), escalas de 1 a 6 o de 0/1 a 10, y una evaluación diferenciando empatía cognitiva y emocional. También hubo aproximaciones de análisis de contenido que contabilizaron marcadores lingüísticos asociados a la empatía (por ejemplo, expresiones de reconocimiento, agradecimiento y compasión).
Esta diversidad tiene implicaciones: según el propio trabajo, distintas definiciones y formas de operacionalizar la empatía pueden solaparse con constructos cercanos como la compasión, dificultando comparaciones “entre iguales”. Además, el hecho de que la mayor parte de instrumentos no estuvieran validados limita la interpretación clínica directa de las diferencias numéricas.
Resultados principales
De los 15 estudios, 13 aportaron datos extraíbles y se incluyeron en un análisis conjunto. En los estudios combinados se utilizó ChatGPT (versiones 3.5 y/o 4). El resultado global mostró una diferencia media estandarizada de 0,87 (IC95% 0,54–1,20) a favor de la IA, con significación estadística (p<0,00001). Los autores traducen este tamaño de efecto, de forma orientativa, como aproximadamente equivalente a un incremento de 2 puntos en una escala de 10 puntos.
Al analizar ChatGPT-4 por separado (9 estudios), el efecto agrupado fue mayor: diferencia media estandarizada de 1,03 (IC95% 0,71–1,35) a favor de ChatGPT-4, con heterogeneidad alta entre estudios (I2=87%; Tau2=0,19) y significación estadística (p<0,00001). En la discusión, el efecto global se expresa también como una probabilidad de superioridad: el metaanálisis sugiere una probabilidad del 73% de que ChatGPT sea percibido como más empático que un profesional sanitario en un enfrentamiento directo en un escenario textual.
Más allá del efecto agregado, el patrón general de resultados fue consistente: en la mayoría de comparaciones, las respuestas de la IA obtuvieron puntuaciones de empatía superiores a las humanas. Sin embargo, las excepciones en dermatología recuerdan que el rendimiento no es uniforme y puede depender del dominio clínico, del tipo de consulta y de cómo se formula la respuesta.
Riesgo de sesgo y fuentes de heterogeneidad
El conjunto de evidencia presenta limitaciones importantes. En la evaluación del riesgo de sesgo, nueve estudios se consideraron con riesgo moderado y seis con riesgo serio. Se describen potenciales sesgos de selección cuando se utilizan preguntas “curadas” o seleccionadas, así como dudas sobre representatividad cuando las consultas proceden de foros públicos. En esos entornos, las personas pueden publicar en circunstancias de necesidad, con barreras para acceder a atención formal, y el tono del intercambio puede diferir del de canales asistenciales privados.
También se plantea el riesgo de que el modelo se beneficie de haber visto material similar durante el entrenamiento si las preguntas se obtienen de fuentes públicas, aunque los autores sugieren que, por el gran volumen de datos de entrenamiento, el impacto de consultas específicas probablemente sea limitado. Por otra parte, en algunos estudios hubo supervisión humana de las respuestas del chatbot y bloqueo de respuestas inseguras, lo que dificulta aislar el rendimiento del sistema.
La heterogeneidad se explica asimismo por la variedad de evaluadores (pacientes “proxies”, clínicos, estudiantes, población general), por la diversidad de escalas y por el tipo de interacción analizada. En conjunto, el análisis muestra una señal favorable a la IA en texto, pero con variación considerable entre estudios.
Mensajes clave
- En 15 estudios recientes, los chatbots basados en grandes modelos de lenguaje se perciben con frecuencia como más empáticos que profesionales sanitarios en respuestas por texto.
- En 13 estudios combinados con ChatGPT-3.5/4, el efecto global favorece a la IA (diferencia media estandarizada 0,87; IC95% 0,54–1,20; p<0,00001).
- ChatGPT-4, analizado en 9 estudios, mostró una ventaja agrupada mayor (diferencia media estandarizada 1,03; IC95% 0,71–1,35), con heterogeneidad elevada (I2=87%).
- La ventaja no fue universal: dos comparaciones en dermatología favorecieron a las respuestas humanas.
- La evidencia se basa casi por completo en texto y, en general, en instrumentos de empatía no validados; además, el riesgo de sesgo fue moderado o serio en todos los estudios.
Relevancia clínica
La comunicación por escrito con pacientes (mensajes, portales y otros canales) forma parte del trabajo asistencial. En ese contexto concreto, estos datos sugieren que los chatbots pueden generar respuestas percibidas como especialmente empáticas, lo que podría influir en la experiencia del paciente cuando la interacción es textual y puntual. No obstante, el propio trabajo subraya un punto crítico: los potenciales beneficios en empatía pueden quedar eclipsados si el contenido clínico es erróneo o inseguro. Por tanto, el valor potencial no reside en “sustituir” al profesional, sino en apoyar la comunicación escrita bajo control clínico.
Otro matiz importante es que las diferencias estadísticas en empatía no equivalen automáticamente a beneficios clínicos medibles. Los autores destacan que la relevancia clínica directa, por ejemplo sobre resultados en salud, sigue siendo incierta y requiere investigación adicional. Aun así, señalan que la magnitud de las diferencias observadas sugiere potencial interés clínico y justifica estudios más cercanos a la práctica real.
Aplicación práctica
- Usar la IA como borrador revisable. La evidencia en texto apoya su capacidad para producir respuestas percibidas como empáticas. En la práctica, esto se traduce en generar un primer borrador que el profesional ajusta y valida antes de enviarlo.
- Revisar siempre la exactitud clínica. Una respuesta puede sonar cálida y comprensiva y, aun así, ser incorrecta. El control clínico del contenido es imprescindible, especialmente cuando la consulta incluye interpretación de resultados o decisiones terapéuticas.
- Equilibrar brevedad y explicación. Se destaca que limitar la longitud de las respuestas puede reducir la empatía percibida, mientras que permitir respuestas más largas se asocia con puntuaciones mayores. En entornos asistenciales, esto invita a optimizar el mensaje para que sea claro, suficientemente explicativo y no excesivamente telegráfico.
- Evitar extrapolar a interacciones presenciales o con voz. Los datos proceden casi por completo de texto. En consultas con componentes no verbales, la empatía se expresa de forma distinta y no debe asumirse equivalencia sin evidencia específica.
- Ser prudente en dominios donde la IA no destacó. Las excepciones en dermatología recuerdan que el rendimiento puede variar por área, tipo de caso o estilo de respuesta humana. Conviene monitorizar el desempeño por contextos y no dar por sentado un beneficio uniforme.
Impacto en la práctica clínica
Integrada con prudencia, la IA conversacional puede apoyar la redacción de mensajes dirigidos a pacientes con un tono percibido como más empático, ahorrar tiempo en tareas de escritura y ayudar a estandarizar respuestas comunicativamente cuidadas. La implementación más coherente con la evidencia disponible es aquella en la que el chatbot no actúa como emisor final, sino como herramienta de apoyo bajo supervisión profesional.
Según los propios autores, los siguientes pasos deberían incluir evaluaciones directas por parte de pacientes en situaciones reales y comprobar si sistemas con voz pueden ofrecer ventajas similares a las observadas en texto. Hasta que esa evidencia esté disponible, el mensaje práctico es claro: existe una oportunidad para mejorar la comunicación escrita aprovechando la capacidad de los chatbots para formular respuestas empáticas, siempre con verificación clínica del contenido y con un enfoque explícito en seguridad.
Referencias:
- Br Med Bull. - AI chatbots versus human healthcare professionals: a systematic review and meta-analysis of empathy in patient care
Ramón Bover Freire

























