Diseño e interpretación de estudios clínicos: guía práctica para el médico

Q: ¿Qué es la intención de tratar y por qué se considera el análisis más riguroso?

El análisis por intención de tratar (ITT) analiza a todos los participantes según el grupo al que fueron asignados inicialmente, independientemente de si completaron el tratamiento, lo abandonaron o cambiaron de grupo. Preserva los beneficios de la aleatorización y evita sesgos derivados de la no adherencia. Proporciona una estimación conservadora del efecto real, pero más representativa de la práctica clínica.

Metodología · Formación transversal

Epidemiología clínica Ensayos clínicos Lectura crítica Estadística básica

Cada día, los médicos tomamos decisiones terapéuticas basadas en estudios que hemos leído, escuchado en congresos o visto citados en guías clínicas. Sin embargo, no todos los estudios tienen el mismo peso. Saber distinguir entre una cohorte y un ensayo aleatorizado, entender qué significa "no inferioridad" o reconocer cuándo un valor p engaña más que informa son competencias transversales que todo clínico necesita, con independencia de su especialidad. Esta píldora ofrece una guía práctica y accesible sobre los tipos de diseños de estudios, los principios que los hacen válidos o vulnerables, y las claves para interpretar los resultados con sentido crítico.

1 La jerarquía de la evidencia: no toda investigación pesa lo mismo

Cuando un artículo científico presenta un hallazgo, la primera pregunta que debe hacerse el lector no es "¿qué encontraron?" sino "¿cómo lo investigaron?". El diseño de un estudio determina cuánto podemos confiar en sus conclusiones y, en particular, si la relación observada entre una intervención y un resultado refleja causalidad real o simplemente una asociación espuria.

La jerarquía de la evidencia ordena los tipos de estudios según su capacidad para minimizar el sesgo y establecer relaciones causales. En su representación clásica, con forma de pirámide, la base la ocupa la opinión de expertos y los informes de casos, mientras que el vértice corresponde a las revisiones sistemáticas y los metaanálisis de ensayos aleatorizados.

Nivel	Tipo de estudio	Fortaleza causal	Limitación principal
1 (mayor)	Umbrella review (revisión de revisiones sistemáticas)	Máxima	Heterogeneidad acumulada; depende de la calidad de los metaanálisis incluidos
2	Revisión sistemática / metaanálisis de ECAs	Muy alta	Heterogeneidad entre estudios
3	Ensayo clínico aleatorizado (ECA)	Alta	Criterios estrictos, coste, tiempo
4	Estudio de cohorte prospectivo	Moderada	Confusión residual
5	Estudio de casos y controles	Moderada-baja	Sesgo de recuerdo, sesgo de selección
6	Estudio transversal	Baja	Sin temporalidad clara
7	Serie de casos / informe de caso	Muy baja	Sin grupo comparador
8 (menor)	Opinión de expertos / consenso	Mínima	Subjetiva, sesgada por experiencia individual

💡 Concepto clave: correlación no implica causalidad

La asociación estadística entre dos variables no demuestra que una cause la otra. Para establecer causalidad, se necesita que la exposición preceda al resultado (temporalidad), que haya una plausibilidad biológica razonable y que se hayan descartado razonablemente el sesgo y la confusión. El ensayo aleatorizado es el diseño más robusto para cumplir estos tres criterios de forma simultánea.

Un matiz práctico relevante: la jerarquía no es absoluta. Un ensayo aleatorizado muy pequeño, mal diseñado o con alto riesgo de sesgo puede ser menos informativo que una cohorte prospectiva bien conducida con miles de pacientes. El nivel de evidencia es una guía, no un veredicto automático.

2 Estudios observacionales: observar sin intervenir

Los estudios observacionales son aquellos en los que el investigador no asigna la exposición ni el tratamiento: simplemente observa lo que ocurre en poblaciones reales. Son el pilar de la epidemiología clínica y, con frecuencia, el punto de partida antes de diseñar un ensayo. Existen varios tipos principales.

Estudio de cohorte

Un grupo de personas (cohorte) se sigue en el tiempo para evaluar si una exposición determinada (un fármaco, un hábito, un factor de riesgo) se asocia con la aparición de un resultado. Puede ser prospectivo (se define la cohorte y se sigue hacia adelante) o retrospectivo (se utilizan datos ya recogidos y se analiza lo que ocurrió).

Las cohortes prospectivas son más costosas y lentas, pero permiten controlar mejor la calidad de los datos y reducir el sesgo de información. Son ideales para estudiar enfermedades frecuentes con exposiciones comunes. Un ejemplo histórico es el Framingham Heart Study, que durante décadas permitió identificar los factores de riesgo cardiovascular que hoy son la base de la práctica clínica.

⚕️ Perla clínica: la medida de asociación en cohortes

En los estudios de cohorte, la medida de asociación habitual es el riesgo relativo (RR): cuántas veces más probable es que ocurra el evento en el grupo expuesto frente al no expuesto. Un RR de 2 significa que el grupo expuesto tiene el doble de riesgo. Si el intervalo de confianza al 95% no incluye el valor 1, la asociación es estadísticamente significativa.

Estudio de casos y controles

Se parte del resultado (la enfermedad) y se mira hacia atrás: se compara un grupo con la enfermedad (casos) frente a un grupo sin ella (controles), para identificar diferencias en la exposición previa. Son muy eficientes cuando la enfermedad es rara o cuando el periodo de latencia entre exposición y enfermedad es largo.

Su principal limitación es el sesgo de recuerdo: los casos pueden recordar o distorsionar sus exposiciones pasadas de forma diferente a los controles. La medida de asociación es la odds ratio (OR), que en enfermedades raras aproxima bien al RR, pero que lo sobreestima cuando el evento es frecuente (superior al 10%).

Estudio transversal

Mide la exposición y el resultado en el mismo momento temporal. Es útil para describir la prevalencia de una condición o la distribución de factores de riesgo en una población, pero su debilidad es la imposibilidad de establecer temporalidad: no podemos saber si la exposición precedió al resultado o fue al revés.

🚫 Error frecuente a evitar

Confundir asociación con causalidad en estudios observacionales. El hecho de que dos variables estén correlacionadas en una cohorte o un estudio transversal no permite concluir que una cause la otra. Siempre pregúntate: ¿podría haber un factor de confusión que explique esta relación? ¿La exposición precede realmente al resultado?

3 El ensayo clínico aleatorizado: variantes del estándar de oro

El ensayo clínico aleatorizado (ECA) es el diseño experimental por excelencia. La diferencia fundamental respecto a los estudios observacionales es que el investigador asigna la intervención: los participantes son aleatorizados a uno u otro tratamiento, y esa asignación al azar es lo que permite comparar grupos equiparables y establecer causalidad con mayor rigor.

No todos los ECA tienen la misma estructura. Existen varias variantes con indicaciones específicas:

Diseño paralelo

Es el más habitual. Cada participante es asignado a un único grupo (tratamiento o control) y ambos grupos son seguidos de forma simultánea. Las comparaciones se hacen entre grupos. Permite estudiar tratamientos con efectos permanentes o que modifican la historia natural de la enfermedad. La gran mayoría de los grandes ensayos cardiovasculares utilizan este diseño.

Diseño cruzado (crossover)

Cada paciente recibe ambos tratamientos en secuencias distintas, asignadas aleatoriamente (primero A y después B, o viceversa). Cada participante actúa como su propio control, lo que reduce la variabilidad entre sujetos y permite alcanzar conclusiones con muestras más pequeñas. Entre las dos fases se incluye un periodo de lavado para eliminar el efecto del primer tratamiento antes de iniciar el segundo.

Sus limitaciones son importantes: solo es aplicable cuando la enfermedad es crónica y estable (no se cura durante el estudio), el tratamiento no tiene efectos permanentes y se puede garantizar que el efecto del primer periodo se disipa completamente. Se usa con frecuencia en asma, hipertensión, artritis y estudios de biodisponibilidad.

Diseño factorial

Permite estudiar dos intervenciones de forma simultánea en un mismo ensayo. Los participantes son aleatorizados a cuatro grupos: A solo, B solo, A y B conjuntamente, o ninguno. Es una solución eficiente cuando se quieren probar dos tratamientos con mecanismos de acción independientes. El ensayo ISIS-3 es un ejemplo histórico: evaluó simultáneamente tres fibrinolíticos y el papel de la heparina en el infarto agudo de miocardio mediante un diseño 3x2 con más de 41.000 pacientes.

📊 Clave del diseño factorial

En un diseño factorial, el poder estadístico para detectar el efecto de A se obtiene comparando todos los que recibieron A (con o sin B) frente a todos los que no recibieron A. Esto solo es válido si no existe interacción entre A y B, es decir, si el efecto de A no depende de si el paciente también recibe B. Cuando existe interacción, la interpretación se complica considerablemente y el análisis debe estratificarse.

Diseño con aleatorización por grupos (cluster)

La unidad de aleatorización no es el individuo sino un grupo: un hospital, un centro de salud, una comunidad o un colegio. Se usa cuando la intervención actúa a nivel del grupo o cuando aleatorizar individuos dentro del mismo grupo crearía contaminación entre ellos. La contrapartida es que se necesita un número mayor de individuos para alcanzar la misma potencia estadística que un ECA individual.

Diseño adaptativo

Incorpora reglas predefinidas en el protocolo para modificar ciertos aspectos del ensayo (tamaño muestral, criterios de elegibilidad, ratio de aleatorización o incluso los tratamientos en estudio) en función de los datos intermedios. La clave es que estas adaptaciones deben estar especificadas antes de iniciar el estudio: no son decisiones ad hoc. Ofrecen flexibilidad y pueden ser más eficientes, pero su implementación logística y su interpretación estadística son más complejas. El ensayo I-SPY 2 en cáncer de mama es un ejemplo de diseño adaptativo para identificar qué regímenes funcionan mejor según el perfil biomolecular del tumor.

⚕️ Fases del desarrollo de un fármaco

Fase I (10-30 sujetos sanos o voluntarios, seguridad y farmacocinética) → Fase II (30-100 pacientes, señal de eficacia y seguridad) → Fase III (cientos o miles de pacientes, eficacia y seguridad confirmatorias, base para la aprobación regulatoria) → Fase IV (poscomercialización: vigilancia de efectos adversos a largo plazo y en poblaciones no incluidas en la Fase III). Las guías clínicas se nutren principalmente de los datos de Fase III.

4 Superioridad, equivalencia y no inferioridad: la hipótesis que guía el ensayo

No todos los ensayos buscan demostrar que un tratamiento es mejor que otro. La hipótesis que plantea el estudio determina su diseño, el cálculo del tamaño muestral y la forma en que se interpretan los resultados.

Ensayo de superioridad

Es el paradigma clásico: se quiere demostrar que el tratamiento A es mejor que B. La hipótesis nula es que no hay diferencia entre ambos. Si se rechaza la hipótesis nula con el nivel de significación predefinido (habitualmente p < 0,05), se concluye superioridad.

Ensayo de no inferioridad

Su objetivo es demostrar que el tratamiento nuevo no es inaceptablemente peor que el tratamiento estándar. Se usa cuando el nuevo fármaco ofrece ventajas prácticas relevantes (mayor seguridad, menor coste, mejor tolerabilidad o comodidad de administración), aunque su eficacia sea similar o ligeramente inferior.

El concepto central es el margen delta: la diferencia máxima de eficacia que se considera clínicamente aceptable. Si el intervalo de confianza al 95% del efecto del nuevo tratamiento queda íntegramente dentro de ese margen (por encima de la frontera delta), se concluye no inferioridad. Si el intervalo también excluye el valor nulo (cero para diferencias, uno para cocientes), además se puede declarar superioridad.

📊 Lectura del intervalo de confianza en no inferioridad

Imagina un ensayo que compara apixabán frente a enoxaparina para tromboprofilaxis tras cirugía ortopédica, con un margen delta de RR = 1,25. Si el IC al 95% del RR es [0,91 - 1,13]: el límite superior no supera 1,25, por lo que se concluye no inferioridad. Si el IC fuera [0,91 - 1,31], el límite superior supera el margen y la no inferioridad no queda demostrada. Siempre debe preguntarse: ¿es el margen delta elegido clínicamente razonable o resulta demasiado permisivo?

Ensayo de equivalencia

Busca demostrar que dos tratamientos producen efectos similares en ambas direcciones (ni mejor ni peor). La hipótesis nula es que existe diferencia. Para rechazarla, el intervalo de confianza debe estar completamente contenido dentro del margen de equivalencia predefinido. Requieren tamaños muestrales grandes y son menos frecuentes en la práctica clínica habitual que los de no inferioridad.

⚠️ Precaución al leer ensayos de no inferioridad

El análisis por intención de tratar es conservador en ensayos de superioridad (favorece el resultado nulo), pero en los de no inferioridad puede ser anti-conservador: si hay mucha no adherencia, los grupos se parecen más entre sí y es más fácil concluir no inferioridad de forma espuria. Por eso, los ensayos de no inferioridad bien diseñados reportan tanto el análisis por intención de tratar como el análisis por protocolo, y se exige coherencia entre ambos para concluir no inferioridad con solidez.

5 Aleatorización, enmascaramiento e intención de tratar

Tres elementos metodológicos distinguen a un buen ensayo clínico de uno vulnerable al sesgo: la aleatorización, el enmascaramiento y el análisis por intención de tratar. Comprender por qué existen y cómo protegen los resultados es fundamental para leer un artículo con criterio.

Aleatorización: mucho más que echar a suertes

Asignar a los participantes de forma aleatoria a los grupos de tratamiento tiene dos objetivos: eliminar el sesgo de selección y distribuir de forma equitativa los factores de confusión, tanto los conocidos como los desconocidos. La aleatorización es el único mecanismo capaz de controlar factores que no se han medido ni identificado.

En la práctica, la aleatorización más simple equivale al lanzamiento de una moneda, pero en los ensayos se usan esquemas más sofisticados:

Aleatorización por bloques: se generan bloques de asignaciones predefinidas (por ejemplo, bloques de 4 con dos A y dos B en todas las posibles permutaciones). Garantiza el equilibrio entre grupos en cada momento del tiempo, lo que es especialmente importante si el ensayo se detiene de forma anticipada. El tamaño de los bloques se mantiene en secreto para evitar que quien recluta pacientes pueda predecir la próxima asignación.
Aleatorización estratificada: se realiza una aleatorización separada dentro de subgrupos definidos por variables asociadas al resultado (por ejemplo, centro hospitalario, sexo, estadio de la enfermedad). Asegura que esas variables estén bien distribuidas entre los grupos. En la práctica se combina con la aleatorización por bloques.
Minimización: un método adaptativo que asigna al nuevo paciente al tratamiento que mejor equilibre las variables pronósticas acumuladas hasta ese momento. Maneja más factores que la estratificación convencional, pero la secuencia de asignaciones no puede determinarse de antemano.

💡 Ocultación de la asignación frente a enmascaramiento

Son conceptos distintos que se confunden frecuentemente. La ocultación de la asignación impide que el investigador que recluta al paciente conozca cuál será su próxima asignación antes de que el paciente entre al estudio: protege la aleatorización de la manipulación. El enmascaramiento ocurre después de la aleatorización: impide que el paciente, el clínico o el evaluador sepan qué tratamiento se administra una vez el paciente ya está dentro del estudio.

Enmascaramiento: quién sabe qué

El enmascaramiento elimina el sesgo introducido por el conocimiento del tratamiento. Puede afectar a varias partes del ensayo. En el simple ciego, el paciente desconoce su asignación pero el clínico la conoce. En el doble ciego, ni el paciente ni el clínico conocen la asignación; es el estándar en ensayos farmacológicos. El triple ciego añade el enmascaramiento del evaluador de los eventos o del estadístico.

Cuando el enmascaramiento no es posible (por ejemplo, en ensayos quirúrgicos o de dispositivos), se habla de ensayos abiertos. En estos casos, la evaluación de los eventos clínicos por un comité independiente ciego a la asignación es especialmente importante.

Intención de tratar: analizar según se fue asignado

El análisis por intención de tratar (ITT) consiste en analizar a todos los participantes según el grupo al que fueron asignados originalmente, con independencia de si completaron el tratamiento, lo abandonaron, se cambiaron de grupo o incumplieron el protocolo.

Puede parecer contraintuitivo incluir en el análisis a pacientes que no tomaron el fármaco asignado. Pero la lógica es sólida: la no adherencia no es aleatoria; se relaciona con características de los pacientes que también influyen en el resultado. Excluir a los no adherentes o reasignarlos según lo que realmente recibieron destruye el equilibrio logrado con la aleatorización y convierte el análisis en observacional, con todos los riesgos de confusión que eso implica.

El ITT proporciona una estimación conservadora del efecto real del tratamiento, pero más representativa de lo que ocurrirá en la práctica clínica, donde los pacientes también se pierden o incumplen el tratamiento.

⚠️ Análisis por protocolo frente a ITT

El análisis por protocolo (AP) solo incluye a los participantes que completaron el tratamiento según las condiciones del protocolo. Puede sobrestimar el beneficio real (selecciona a los más adherentes, que suelen ser también los más sanos y motivados), pero es útil para estimar el efecto máximo posible en condiciones ideales de cumplimiento. Los artículos bien escritos presentan ambos análisis y discuten las discrepancias entre ellos.

6 Revisiones sistemáticas, metaanálisis y síntesis de la evidencia

Cuando existe más de un ensayo sobre la misma pregunta clínica, la síntesis formal de sus resultados ofrece una visión más completa y precisa que cualquier estudio individual. Aquí entran las revisiones sistemáticas y los metaanálisis.

Revisión sistemática

Es una búsqueda exhaustiva, reproducible y transparente de todos los estudios relevantes sobre una pregunta clínica concreta, con criterios de inclusión y exclusión predefinidos. A diferencia de una revisión narrativa (que es selectiva y puede estar sesgada por la opinión del autor), la revisión sistemática minimiza el sesgo de selección mediante la aplicación rigurosa de su metodología y la búsqueda en múltiples bases de datos.

Metaanálisis

Es el análisis estadístico que combina cuantitativamente los resultados de los estudios incluidos en una revisión sistemática. Al aumentar el tamaño muestral efectivo, proporciona estimaciones más precisas del efecto (intervalos de confianza más estrechos) y mayor potencia estadística para detectar diferencias modestas que ningún estudio individual podría detectar por sí solo.

El resultado principal se representa habitualmente en un diagrama de bosque (forest plot): cada línea horizontal corresponde a un estudio individual (cuanto más estrecha, más precisa la estimación) y el rombo al final resume el efecto combinado de todos ellos.

📊 Heterogeneidad: el talón de Aquiles del metaanálisis

La estadística I² mide la proporción de variabilidad entre los estudios atribuible a diferencias reales entre ellos (heterogeneidad), más que al azar. Valores de I² inferiores al 25% indican heterogeneidad baja; entre 25 y 75%, moderada; por encima del 75%, alta. Cuando la heterogeneidad es elevada, combinar los estudios en un único número puede ser engañoso: los estudios no están midiendo exactamente lo mismo y el resultado global puede no ser interpretable de forma directa.

Sesgo de publicación

Los estudios con resultados positivos tienen más probabilidades de publicarse que los negativos. Si solo se recopilan los estudios publicados, el metaanálisis puede sobreestimar el efecto real de la intervención. Los gráficos en embudo (funnel plots) y las pruebas estadísticas de asimetría son herramientas para detectar este sesgo, aunque no lo eliminan definitivamente.

7 Sesgos, confusión e interpretación estadística: las claves para no dejarse engañar

Un resultado estadísticamente significativo no garantiza que el efecto sea real. Los sesgos pueden introducir errores sistemáticos en cualquier fase del estudio; la confusión puede crear asociaciones espurias; y la estadística puede impresionar o decepcionar dependiendo de cómo se presente.

Tipos de sesgo más importantes

El sesgo de selección ocurre cuando los grupos comparados difieren en características pronósticas relevantes desde el inicio, no por el azar sino por algún mecanismo sistemático. En un ensayo aleatorizado, la propia aleatorización protege contra este sesgo. En los estudios observacionales, es la principal amenaza a la validez interna.

El sesgo de información (o de medición) aparece cuando los datos sobre la exposición o el resultado se recogen de forma diferente entre los grupos. El sesgo de recuerdo en los estudios de casos y controles es un ejemplo típico: los casos pueden recordar sus exposiciones pasadas de forma más intensa o distorsionada que los controles.

El sesgo de desgaste (o de attrición) ocurre cuando los participantes que abandonan el estudio tienen un perfil diferente al de los que se quedan. Si los abandonos son más frecuentes en un grupo y están relacionados con el resultado, el análisis final deja de ser válido.

Confusión: el enemigo de los estudios observacionales

Un factor de confusión es una variable que se asocia tanto con la exposición como con el resultado, y cuya presencia puede crear (o enmascarar) una asociación aparente entre ambos. En los ensayos aleatorizados, la aleatorización distribuye los factores de confusión de forma equitativa entre los grupos. En los estudios observacionales, solo pueden controlarse los factores conocidos y medidos, mediante estratificación, restricción o análisis multivariante.

💡 Confusión por indicación: el ejemplo del fármaco que "produce" mortalidad

Imagina un estudio observacional donde los pacientes que reciben diuréticos tienen mayor mortalidad que los que no los reciben. ¿Significa que los diuréticos matan? No necesariamente. Los pacientes que reciben diuréticos suelen tener insuficiencia cardiaca más grave, y precisamente esa gravedad es lo que aumenta la mortalidad, no el fármaco. Esto es la confusión por indicación: la enfermedad que motiva la prescripción del tratamiento confunde la relación aparente entre el tratamiento y el resultado.

Valor p, intervalo de confianza y relevancia clínica

El valor p es la probabilidad de obtener el resultado observado (o uno más extremo) si la hipótesis nula fuera verdadera. Un p < 0,05 significa que, si realmente no hubiera diferencia entre los grupos, habría menos de un 5% de probabilidades de obtener ese resultado por azar. No mide la magnitud ni la importancia del efecto: un estudio con 100.000 pacientes puede detectar diferencias triviales con valores de p muy pequeños.

El intervalo de confianza al 95% (IC 95%) es el rango de valores dentro del cual, con un 95% de confianza, se encuentra el efecto verdadero en la población. Aporta información sobre la precisión de la estimación y su relevancia clínica potencial. Un IC muy amplio indica incertidumbre; uno muy estrecho, mayor precisión.

Medida	Qué mide	Ejemplo práctico	Limitación clave
Riesgo relativo (RR)	Cociente de riesgos entre expuestos y no expuestos	RR = 0,75: el tratamiento reduce el riesgo a 3/4 del control	No informa del riesgo absoluto de base
Reducción del riesgo relativo (RRR)	Porcentaje de reducción respecto al control	RRR = 25%: el tratamiento reduce el riesgo un 25% respecto al control	Puede sonar impresionante aunque el riesgo absoluto sea mínimo
Reducción del riesgo absoluto (RRA)	Diferencia en el riesgo entre los dos grupos	RRA = 2%: el tratamiento evita 2 eventos por cada 100 pacientes	Depende del riesgo basal de la población estudiada
Número necesario a tratar (NNT)	Cuántos pacientes hay que tratar para evitar un evento	NNT = 50: hay que tratar 50 pacientes para evitar 1 evento	Varía con el riesgo basal; no informa del tipo de evento
Odds ratio (OR)	Razón de probabilidades del evento entre expuestos y no expuestos	OR = 2: los expuestos tienen el doble de probabilidades del evento	Sobreestima el RR cuando el evento es frecuente (>10%)

⚕️ La trampa del riesgo relativo en la comunicación médica

Si el riesgo basal de un evento es del 0,2% y el tratamiento lo reduce al 0,1%, la RRR es del 50% (llamativa), pero la RRA es solo del 0,1% y el NNT es 1.000: hay que tratar a 1.000 pacientes para evitar un único evento. Los ensayos y la comunicación farmacéutica tienden a destacar la RRR porque es el número más impactante. El clínico siempre debe buscar la RRA o el NNT para evaluar el beneficio real en su población.

Análisis de subgrupos: el arte de buscar sin encontrar

Los análisis de subgrupos evalúan si el efecto del tratamiento varía en distintos grupos de pacientes (por sexo, edad, gravedad de la enfermedad, etc.). Son útiles para generar hipótesis, pero están sujetos a un problema fundamental: cuando se realizan múltiples comparaciones, la probabilidad de encontrar una diferencia significativa por azar solo aumenta. Si se analizan 20 subgrupos, cabe esperar que uno de ellos muestre p < 0,05 simplemente por azar.

Los análisis de subgrupos solo son robustos si se prespecificaron antes de iniciar el estudio, si se prueba formalmente la interacción estadística (no solo el efecto en cada subgrupo por separado) y si el hallazgo tiene una explicación biológica plausible. Los análisis post hoc, no prespecificados y sin interacción significativa deben interpretarse como generadores de hipótesis, no como conclusiones definitivas.

Confusión frente a mediación: un error con consecuencias reales

La confusión y la mediación son dos fenómenos que comparten una característica superficial: en ambos casos existe una variable intermedia que se relaciona con la exposición y con el resultado. Sin embargo, su naturaleza y sus implicaciones son radicalmente distintas, y confundirlas conduce a errores analíticos graves.

Un factor de confusión es una variable externa a la cadena causal que distorsiona la relación entre exposición y resultado. Debe controlarse en el análisis para obtener una estimación no sesgada del efecto real.

Un mediador, en cambio, es una variable que forma parte de la propia cadena causal: es el mecanismo a través del cual la exposición ejerce su efecto sobre el resultado. Controlar estadísticamente un mediador no elimina un sesgo, sino que bloquea el efecto que se quiere medir, infraestimándolo o eliminándolo artificialmente del análisis.

💡 Ejemplo: estatinas, LDL y mortalidad cardiovascular

Imagina un estudio que analiza si las estatinas reducen la mortalidad cardiovascular y decide "ajustar por LDL" en el modelo multivariante. El LDL es precisamente el mecanismo biológico principal a través del cual las estatinas actúan: es un mediador, no un confusor. Al incluirlo en el modelo, se neutraliza gran parte del efecto de las estatinas y el análisis concluye erróneamente que su beneficio es mucho menor de lo que es. La pregunta clave antes de ajustar por una variable siempre es: ¿esta variable precede a la exposición y es independiente de ella (confusor), o es consecuencia de la exposición y forma parte de su mecanismo de acción (mediador)?

En la práctica clínica, esta distinción es especialmente relevante cuando se leen estudios de vida real con modelos multivariantes complejos. Un ajuste excesivo o mal orientado puede hacer que un tratamiento eficaz parezca inútil, o que una intervención nociva parezca neutra.

8 Validez interna y validez externa: ¿el estudio es riguroso y aplicable a mis pacientes?

Un estudio puede ser metodológicamente impecable y, sin embargo, sus conclusiones no ser aplicables a los pacientes que atiendes en tu consulta. Esta es la distinción fundamental entre validez interna y validez externa, y es el último filtro crítico antes de trasladar la evidencia a la práctica.

Validez interna

Se refiere a si el estudio mide correctamente lo que dice medir en la población que estudia, es decir, si sus resultados son libres de sesgo y sus conclusiones son válidas para los participantes incluidos. Un ensayo con aleatorización adecuada, enmascaramiento bien implementado, análisis por intención de tratar y baja tasa de pérdidas tiene alta validez interna.

La validez interna es una condición necesaria pero no suficiente para que un estudio sea útil en la práctica: si los resultados son sesgados, no importa a quién se quieran generalizar.

Validez externa (generalizabilidad)

Se refiere a si los resultados del estudio son aplicables a poblaciones o contextos distintos de los que se estudió, es decir, si lo que funcionó en el ensayo funcionará también en tus pacientes reales. Es la pregunta del "¿y esto me sirve a mí?".

Los grandes ensayos controlados aleatorizados suelen tener criterios de inclusión y exclusión muy estrictos: excluyen a pacientes con comorbilidades relevantes, a los más ancianos o frágiles, a los que toman determinados fármacos, o a los que presentan variantes específicas de la enfermedad. Esto maximiza la homogeneidad interna del ensayo y facilita detectar el efecto del tratamiento, pero a costa de estudiar a una población muy diferente de la que luego recibirá el fármaco en la práctica clínica.

⚠️ Preguntas para evaluar la validez externa de un ensayo

Antes de aplicar los resultados de un ensayo a tu paciente, hazte estas preguntas: ¿Mi paciente habría cumplido los criterios de inclusión del estudio? ¿Los criterios de exclusión eliminaron a pacientes como el mío (por edad, función renal, comorbilidades)? ¿El contexto asistencial del ensayo (hospitales terciarios de referencia, equipos altamente especializados) es comparable al mío? ¿El comparador usado es el que yo usaría en la práctica real? Si la respuesta a alguna de estas preguntas es negativa, los resultados del ensayo deben aplicarse con cautela y mayor juicio clínico individualizado.

📊 La tensión entre validez interna y externa

Existe una tensión real entre ambas: los diseños que maximizan la validez interna (criterios estrictos, población homogénea, condiciones controladas) suelen sacrificar validez externa, y viceversa. Los ensayos pragmáticos buscan deliberadamente mayor validez externa: usan criterios de inclusión amplios, se realizan en entornos asistenciales ordinarios, permiten flexibilidad en el tratamiento y miden resultados relevantes para el paciente. Son menos "limpios" internamente, pero sus resultados son más directamente trasladables a la práctica clínica cotidiana.

Resumen de conceptos clave

Concepto	Definición en una frase	Lo que debes recordar
Estudio de cohorte	Sigue a grupos expuestos y no expuestos para medir incidencia	Riesgo relativo; vulnerable a confusión
Casos y controles	Compara exposiciones pasadas entre enfermos y sanos	Odds ratio; eficiente en enfermedades raras
ECA paralelo	Cada paciente en un solo grupo; comparación entre grupos	Diseño más habitual; base de las guías clínicas
ECA cruzado	Cada paciente recibe ambos tratamientos en orden aleatorio	Requiere lavado; solo en enfermedades estables y reversibles
Diseño factorial	Evalúa dos intervenciones simultáneamente en un mismo ensayo	Requiere ausencia de interacción entre intervenciones
No inferioridad	Demuestra que el nuevo tratamiento no es inaceptablemente peor	El margen delta debe ser clínicamente razonable
Intención de tratar (ITT)	Analiza según asignación original, sin importar adherencia	Conservador; preserva los beneficios de la aleatorización
Sesgo de selección	Grupos no comparables desde el inicio del estudio	La aleatorización es la protección más eficaz
Confusión por indicación	La enfermedad que motiva el tratamiento distorsiona su efecto aparente	Frecuente en datos de vida real; difícil de controlar
NNT	Pacientes que hay que tratar para evitar un evento	NNT = 1 / RRA; varía con el riesgo basal de la población
I² en metaanálisis	Proporción de variabilidad por heterogeneidad real entre estudios	I² >75%: heterogeneidad alta; el resultado global es de difícil interpretación
Mediador	Variable en la cadena causal entre exposición y resultado	Ajustar por un mediador bloquea el efecto que se quiere medir
Validez externa	Aplicabilidad de los resultados a poblaciones distintas de la estudiada	Criterios estrictos y población homogénea reducen la generalizabilidad

Preguntas frecuentes

¿Cuál es la diferencia entre un estudio de cohorte y un ensayo clínico aleatorizado?

Un estudio de cohorte es observacional: el investigador no asigna los tratamientos, sino que sigue a grupos de personas que ya están expuestas o no a un factor. Un ensayo clínico aleatorizado (ECA) es experimental: el investigador asigna al azar a los participantes a diferentes grupos de tratamiento. El ECA es superior para establecer causalidad porque la aleatorización distribuye los factores de confusión de forma equitativa entre grupos, incluidos los que no se conocen ni se han medido.

¿Qué significa que un ensayo sea de no inferioridad y por qué es importante?

Un ensayo de no inferioridad no busca demostrar que el tratamiento nuevo es mejor que el comparador, sino que no es inaceptablemente peor. Se usa cuando el nuevo tratamiento ofrece ventajas prácticas relevantes (mayor seguridad, menor coste, mayor comodidad). El concepto central es el margen delta: la diferencia máxima que se considera clínicamente aceptable. Si el intervalo de confianza del efecto queda completamente dentro de ese margen, se concluye no inferioridad. La elección de un margen delta demasiado amplio puede llevar a conclusiones cuestionables.

¿Qué es la intención de tratar y por qué se considera el análisis más riguroso en los ensayos?

El análisis por intención de tratar analiza a todos los participantes según el grupo al que fueron asignados inicialmente, independientemente de si completaron el tratamiento, lo abandonaron o cambiaron de grupo. Preserva los beneficios de la aleatorización: si se excluyen los no adherentes, los grupos dejan de ser comparables y el análisis pierde su carácter experimental. El ITT proporciona una estimación conservadora del efecto real, pero más representativa de lo que ocurre en la práctica clínica.

¿Qué es un sesgo y en qué se diferencia de un factor de confusión?

Un sesgo es un error sistemático que distorsiona los resultados en una dirección predecible y no se corrige aumentando el tamaño muestral. Un factor de confusión es una variable que se asocia tanto con la exposición como con el resultado, creando una asociación aparente que no refleja causalidad real. Los sesgos más importantes son el de selección (grupos no comparables desde el inicio) y el de información (errores en la medición de variables). Los factores de confusión pueden controlarse mediante aleatorización, estratificación o análisis multivariante.

¿Cuándo es más fiable un metaanálisis que un ensayo clínico individual?

Un metaanálisis que combina múltiples ensayos bien diseñados sobre la misma pregunta clínica suele ser más informativo que cualquier ensayo individual, ya que aumenta el tamaño muestral efectivo y proporciona estimaciones más precisas. Sin embargo, su calidad depende de los estudios que incluye y de la homogeneidad entre ellos. Un metaanálisis de estudios heterogéneos o con sesgo puede ser menos fiable que un ensayo individual bien conducido. La clave es evaluar la calidad metodológica de los estudios incluidos y el grado de heterogeneidad (estadístico I²).

¿Un valor p menor de 0,05 significa que el resultado es clínicamente relevante?

No. El valor p solo indica la probabilidad de obtener ese resultado si la hipótesis nula fuera cierta, pero no mide la magnitud ni la importancia clínica del efecto. Con muestras muy grandes, diferencias triviales pueden alcanzar significación estadística. Para valorar la relevancia práctica de un hallazgo, el intervalo de confianza al 95% y las medidas de efecto absoluto, como la reducción del riesgo absoluto y el número necesario a tratar, son herramientas mucho más útiles que el valor p aislado.

El diseño de estudios clínicos y la interpretación crítica de la literatura médica son competencias esenciales para cualquier profesional de la salud. Desde los ensayos clínicos aleatorizados que sustentan las guías de práctica clínica hasta los estudios observacionales que generan hipótesis en la vida real, comprender la jerarquía de la evidencia, los distintos tipos de diseños, los sesgos y la estadística básica permite tomar mejores decisiones para los pacientes y no dejarse guiar por resultados que impresionan estadísticamente pero tienen escasa relevancia clínica. CardioTeca.com ofrece formación continua basada en evidencia para el médico que quiere actualizar sus conocimientos de forma rigurosa y accesible.

Laura Calpe Berdiel

Doctora en Bioquímica y docente universitaria especializada en redacción médica y científica. Coordinadora editorial y de proyectos en CardioTeca.com.