El hazard ratio es el lenguaje estadístico dominante en los grandes ensayos cardiovasculares. Aparece en cada tabla de resultados del PARADIGM-HF, del DAPA-HF, del EMPA-REG o del ATTR-ACT. Sin embargo, es también la medida peor comprendida: se confunde con una probabilidad, se trata como si fuera un risk ratio, se acepta sin verificar si sus supuestos se cumplen y se usa para comparar ensayos con poblaciones de riesgo radicalmente distinto. Esta píldora analiza qué mide exactamente el hazard ratio, qué condiciones deben darse para que sea interpretable, cómo convertirlo en un dato que el paciente (y el clínico) puedan entender, y cuáles son las trampas que la literatura tiende de forma rutinaria.
1 Qué mide realmente el hazard ratio (y qué no mide)
Para interpretar correctamente el hazard ratio hay que empezar por entender qué es el hazard. El hazard en un momento dado t no es la probabilidad de sufrir un evento, sino la tasa instantánea de evento en ese momento entre los sujetos que aún no lo han sufrido. Formalmente, es el límite del cociente entre la probabilidad de que el evento ocurra en el intervalo [t, t+Δt) dado que el sujeto ha sobrevivido hasta t, dividida por Δt, cuando Δt tiende a cero. Es una velocidad, no una probabilidad.
El hazard ratio es el cociente entre los hazards de dos grupos en cualquier momento del seguimiento. En el modelo de Cox (el modelo estadístico del que procede el HR publicado en casi todos los ensayos cardiovasculares), este cociente se asume constante a lo largo del tiempo (una condición que se discutirá en profundidad en la siguiente sección). Así, un HR de 0,75 significa que la tasa instantánea de eventos en el grupo tratamiento es en todo momento el 75% de la del grupo control, lo que equivale a decir que el tratamiento reduce ese hazard en un 25% de forma continua durante todo el seguimiento. Es importante subrayar que se trata de una suposición del modelo: no implica que el efecto biológico real del tratamiento sea constante en el tiempo, sino que el modelo se construye sobre esa premisa.
💡 Lo que el HR no es
El HR no es la probabilidad de sufrir un evento bajo cada tratamiento, ni el porcentaje de pacientes que se salvan, ni la reducción absoluta del riesgo. No puede compararse directamente entre ensayos con distinta duración de seguimiento o distinto riesgo basal de la población. Es una medida relativa de tasas, no de probabilidades acumuladas.
Esta distinción tiene consecuencias prácticas relevantes. Cuando el DAPA-HF (2019) publica un HR de 0,74 para el objetivo primario compuesto, está diciendo que en cualquier momento del seguimiento el riesgo instantáneo de evento en el grupo dapagliflozina es el 74% del del grupo placebo. No implica que el 26% de los pacientes vayan a evitar el evento, ni que la probabilidad acumulada de evento se reduzca un 26%. Esa confusión, frecuente incluso en presentaciones de congresos, es el primer error que hay que evitar.
El modelo de Cox estima el HR ajustado por covariables mediante la partial likelihood, sin necesidad de especificar la forma de la función de supervivencia basal. Esta elegancia estadística tiene un coste: el HR no permite estimar de forma directa la probabilidad absoluta de evento en ninguno de los dos grupos. Para eso hay que recurrir a la curva de Kaplan-Meier o al complemento de la función de supervivencia estimada.
2 La suposición de riesgos proporcionales: el supuesto que nadie comprueba
El modelo de Cox requiere que el cociente de hazards entre los dos grupos sea constante a lo largo de todo el seguimiento. Esta es la suposición de riesgos proporcionales (proporcional hazards assumption, PHA). Si se cumple, las curvas de Kaplan-Meier de los dos grupos se separan de forma constante desde el inicio y el HR es una descripción fiel del efecto del tratamiento en cualquier momento del seguimiento. Si no se cumple, el HR publicado es un promedio ponderado de los HR en distintos momentos temporales, con pesos que dependen de la distribución de eventos en el tiempo, y puede no ser representativo de ningún momento concreto.
La violación de esta suposición es más frecuente de lo que los autores reconocen en sus publicaciones. Aparece sistemáticamente en varios escenarios:
- Inmunoterapia oncológica: el efecto es nulo o incluso negativo en las primeras semanas y aumenta progresivamente después. Las curvas se cruzan al inicio, lo que hace el HR global prácticamente ininterpretable.
- Toxicidad precoz seguida de beneficio tardío: fármacos que aumentan la mortalidad a corto plazo (por ejemplo, por hipotensión o insuficiencia renal inicial) pero reducen el riesgo a largo plazo. Las curvas pueden llegar a cruzarse.
- Seguimientos muy prolongados: el efecto del tratamiento puede atenuarse o amplificarse con el tiempo, alejándose de la proporcionalidad.
⚠️ Cómo detectar la violación de la PHA
Dos métodos complementarios:
- Gráfico log-log: representar log(−log(S(t))) frente al tiempo (o su logaritmo) para cada grupo. Si las curvas resultantes son paralelas, la PHA se cumple. Si se cruzan o divergen progresivamente, hay indicios de violación.
- Test de residuos de Schoenfeld: test formal de correlación entre los residuos del modelo y el tiempo. Un p < 0,05 indica asociación temporal significativa y, por tanto, violación de la PHA. Este test debería ser rutinario en el análisis estadístico de cualquier ensayo con seguimiento > 2 años o con mecanismos de acción que sugieran efecto tardío.
Una herramienta complementaria para escenarios donde la PHA no se cumple es el RMST (restricted mean survival time o tiempo medio de supervivencia restringido), que compara el área bajo las curvas de Kaplan-Meier hasta un horizonte temporal prespecificado y no asume riesgos proporcionales. Su uso en la literatura cardiovascular es aún minoritario, pero está ganando terreno como alternativa o complemento al HR cuando la PHA es cuestionable.
📊 Riesgos competitivos: una limitación frecuentemente ignorada
En cardiología, múltiples tipos de eventos pueden competir entre sí: la muerte no cardiovascular impide la ocurrencia de un evento cardiovascular futuro; una hospitalización por insuficiencia cardíaca puede competir con la mortalidad total. El modelo de Cox clásico ignora esta competencia y puede sobreestimar la incidencia acumulada del evento de interés en presencia de riesgos competitivos.
Para abordar este problema se recurre a dos enfoques complementarios: los modelos de causa específica (cause-specific hazard), que estiman el efecto del tratamiento en pacientes que aún no han experimentado ningún evento, y el modelo de Fine-Gray (subdistribution hazard), que modela directamente la función de incidencia acumulada del evento de interés en presencia de riesgos competitivos. Al leer un ensayo cardiovascular moderno, conviene verificar si los autores han incluido análisis de sensibilidad que consideren los riesgos competitivos.
3 HR, RR y OR: tres medidas distintas que se suelen confundir
En la práctica clínica cotidiana, HR, risk ratio (RR) y odds ratio (OR) se tratan como sinónimos intercambiables. No lo son, y las diferencias importan tanto más cuanto mayor sea la tasa de eventos o el horizonte temporal del estudio.
| Medida | Qué compara | Requiere especificar tiempo | Modelo estadístico habitual | Sesgo si se usa como HR |
|---|---|---|---|---|
| Hazard ratio (HR) | Tasas instantáneas de evento en cualquier t | No (es una razón de tasas continua) | Regresión de Cox | — |
| Risk ratio (RR) | Probabilidades acumuladas al final de un período fijo | Sí (RR a 2 años ≠ RR a 5 años) | Regresión log-binomial, Poisson | RR se aleja menos del 1 que HR → subestima el efecto relativo |
| Odds ratio (OR) | Cociente de odds al final del seguimiento | Sí | Regresión logística | OR se aleja más del 1 que RR → sobreestima si el evento es común |
La regla práctica es sencilla: cuando la tasa de eventos es baja (menos del 5-10%) y el seguimiento es corto, las tres medidas son numéricamente próximas y la distinción es académica. Cuando la tasa de eventos es alta o el seguimiento es prolongado, la divergencia puede ser clínicamente relevante. En ese contexto, presentar el OR de una regresión logística aplicada a datos de supervivencia como si fuera un HR sobreestima el efecto del tratamiento; hacer lo opuesto, presentar el HR como si fuera el RR, también introduce error aunque en sentido contrario.
⚕️ Perla clínica
Al leer un ensayo, comprueba el análisis estadístico: ¿el HR procede de un modelo de Cox o de otro método? Si el texto principal habla de «hazard ratio» pero los suplementos revelan que el análisis se hizo con regresión logística (porque el endpoint es binario al final del seguimiento, no un tiempo hasta el evento), la medida real es un OR, no un HR. Este error metodológico aparece con más frecuencia de la deseable en ensayos de menor rigor.
4 Del cociente relativo al impacto real: reducción absoluta del riesgo y NNT
Este es el punto donde más trampas se tienden y donde la interpretación correcta del HR tiene mayor impacto en la toma de decisiones clínicas. El HR informa del efecto relativo sobre la tasa instantánea del evento. La reducción absoluta del riesgo (RAR) y el número necesario a tratar (NNT) informan del efecto absoluto. Ambas son imprescindibles; ninguna es suficiente sola.
Considera el siguiente ejemplo real: un fármaco reduce el HR del objetivo primario a 0,75, lo que representa una reducción relativa del 25%. ¿Es esto un beneficio grande o pequeño? La respuesta depende completamente de la tasa de eventos en el brazo control:
- Si la tasa de eventos a 3 años en el grupo control es del 40%, la tasa esperada bajo tratamiento sería 31,8%, la RAR sería del 8,2% y el NNT = 13.
- Si la tasa es del 16%, la tasa con tratamiento sería 12,3%, la RAR del 3,7% y el NNT = 27.
- Si la tasa es del 4%, la tasa con tratamiento sería 3,0%, la RAR del 1,0% y el NNT = 102.
El mismo HR de 0,75 puede significar tratar a 13 pacientes para evitar un evento o tratar a más de 100 para conseguirlo. La diferencia no es trivial ni académica: define si el tratamiento es coste-efectivo, si debe recomendarse en prevención primaria o solo en secundaria, y qué pacientes se benefician más.
La fórmula correcta para calcular la tasa de eventos en el grupo tratamiento a partir del HR, asumiendo riesgos proporcionales, es:
Tasatratamiento = 1 − (1 − Tasacontrol)HR
Esta expresión se deduce de la relación entre las funciones de supervivencia en el modelo de Cox: Stto(t) = Sctrl(t)HR. Es la estimación derivada del modelo de Cox bajo la suposición de riesgos proporcionales; proporciona una estimación coherente del riesgo acumulado esperado en el grupo tratamiento siempre que dicha suposición se cumpla de forma razonable. La alternativa más simple (multiplicar la tasa control por el HR) sobreestima la tasa de tratamiento cuando el HR es muy distinto de 1 y la tasa basal es alta, porque confunde HR con RR.
La figura siguiente visualiza este principio: el mismo HR de 0,75 aplicado a tres poblaciones con distinto riesgo basal produce NNTs que van de 13 a 102.
📊 Cómo obtener la tasa basal de un ensayo publicado
La tasa de eventos en el brazo control siempre está en el artículo, aunque a veces hay que buscarla: en la tabla de resultados principales (columna placebo), en el pie de las curvas de Kaplan-Meier (número de eventos / número de pacientes) o, con mayor precisión, en la estimación de Kaplan-Meier al final del seguimiento. No aceptes un HR sin calcular o verificar la RAR y el NNT correspondientes.
El NNT derivado de análisis de supervivencia depende explícitamente del horizonte temporal elegido y de la estimación de Kaplan-Meier en ese punto. Por eso, un NNT de 20 «a 3 años» y un NNT de 20 «a 5 años» no son comparables entre ensayos: la tasa de eventos acumulada depende del tiempo de seguimiento y comparar NNTs de ensayos con distinta duración sin ajustar por ese factor produce conclusiones erróneas sobre qué tratamiento tiene mayor beneficio absoluto.
5 Forest plots y subgrupos: la trampa de las comparaciones múltiples
Los análisis de subgrupos son uno de los elementos de mayor riesgo en la lectura de ensayos clínicos. El mecanismo es el siguiente: si se realizan 20 análisis de subgrupos con un umbral de significación de 0,05, la probabilidad de que al menos uno resulte significativo por puro azar (aunque el tratamiento no tenga ningún efecto diferencial entre subgrupos) es aproximadamente del 64% (1 − 0,9520). En los ensayos cardiovasculares es habitual ver 15-25 subgrupos analizados, con corrección estadística escasa o nula.
La pregunta estadística correcta en un forest plot no es «¿es el HR significativo en diabéticos?» sino «¿el efecto del tratamiento difiere estadísticamente entre diabéticos y no diabéticos?». Estas son preguntas distintas y se responden con estadísticos distintos:
| Pregunta | Estadístico correcto | Interpretación |
|---|---|---|
| ¿Hay efecto del tratamiento en el subgrupo A? | p-valor del subgrupo A | Tiene bajo poder estadístico. No responde si el efecto difiere de otros subgrupos. |
| ¿El efecto difiere entre subgrupos A y B? | p de interacción | Este es el estadístico relevante. p > 0,05: no hay prueba de efecto diferencial. |
El error clásico se produce cuando un subgrupo «alcanza significación» (p < 0,05) y el subgrupo complementario no (p > 0,05), y los autores o los medios concluyen que «el tratamiento funciona en diabéticos pero no en no diabéticos». Esta conclusión solo es válida si el p de interacción entre ambos subgrupos es significativo. Si no lo es (lo que ocurre con frecuencia), la diferencia observada es perfectamente compatible con el azar.
🚫 Lista de señales de alarma en un análisis de subgrupos
- El subgrupo no estaba prespecificado en el protocolo o el análisis estadístico.
- Se presentan muchos subgrupos sin corrección de múltiples comparaciones.
- El p de interacción no se reporta o es mayor de 0,05.
- El subgrupo tiene un tamaño muestral pequeño (los intervalos de confianza son muy amplios).
- El resultado del subgrupo contradice la dirección del efecto global del ensayo.
- El efecto diferencial carece de un mecanismo biológico plausible.
Un caso de referencia histórica: el ensayo ISIS-2 (1988), al analizar subgrupos según el signo zodiacal de los pacientes, mostró que la aspirina era perjudicial en Libra y Géminis. El absurdo del resultado hace evidente que era ruido estadístico; en subgrupos clínicamente plausibles (diabéticos vs no diabéticos, varones vs mujeres), el mismo mecanismo produce resultados que se adoptan como reales con demasiada frecuencia.
6 Significación estadística frente a relevancia clínica: el tamaño importa
Un p < 0,05 indica que si el tratamiento no tuviese efecto alguno, la probabilidad de observar un resultado tan extremo o más por azar sería inferior al 5%. No dice que el efecto sea grande, importante, clínicamente relevante ni que no sea un hallazgo fortuito. La confusión entre «estadísticamente significativo» y «clínicamente importante» es endémica en la medicina moderna y se amplifica con el tamaño muestral.
Con suficientes pacientes, cualquier diferencia real, por pequeña que sea, alcanzará significación estadística. Un ensayo con 50.000 participantes podría detectar como «significativo» un HR de 0,99 que, traducido a NNT, requiriese tratar a varios miles de pacientes durante años para evitar un único evento.
El intervalo de confianza como medida de información
El intervalo de confianza del 95% del HR es más informativo que el p-valor porque comunica simultáneamente tres cosas: la estimación puntual del efecto (el centro del intervalo), la precisión de esa estimación (la amplitud del intervalo) y el rango de valores del HR que son compatibles con los datos observados con una confianza razonable.
💡 Dos ensayos «negativos» que no son lo mismo
Ensayo A: HR 0,92 (IC 95%: 0,78–1,08), p = 0,31. El intervalo incluye reducciones de HR relevantes (hasta 0,78) pero también aumentos (hasta 1,08). El ensayo no descarta un beneficio clínicamente importante: simplemente no tiene suficiente poder para distinguirlo del azar.
Ensayo B: HR 0,97 (IC 95%: 0,91–1,03), p = 0,28. El intervalo excluye efectos de magnitud relevante en ambas direcciones. Este ensayo sí permite concluir con razonable seguridad que el tratamiento no tiene un efecto importante.
Ambos tienen p > 0,05. Son radicalmente distintos.
La dirección opuesta también existe: un ensayo con HR 0,72 (IC 95%: 0,50–0,99) y p = 0,045 es estadísticamente significativo, pero el intervalo tan amplio indica imprecisión importante. El efecto real podría ser modesto (HR 0,99) o grande (HR 0,50). La significación estadística aquí no garantiza una estimación fiable.
7 Guía práctica: seis preguntas para leer cualquier HR publicado
Las seis preguntas siguientes actúan como lista de verificación sistemática ante cualquier ensayo clínico que publique un HR. No es necesario ser biostadístico para aplicarlas; sí es necesario saber que existen y buscar las respuestas en el artículo.
📋 Lista de verificación para la interpretación del hazard ratio
- ¿Qué modelo estadístico lo genera? Verificar que es un modelo de Cox, no una regresión logística presentada como «hazard ratio».
- ¿Se ha comprobado la suposición de riesgos proporcionales? Buscar mención de los residuos de Schoenfeld o el gráfico log-log en los suplementos. Si no se menciona, asumir que no se comprobó.
- ¿Cuál es la tasa de eventos en el brazo control? Este dato es imprescindible para calcular el beneficio absoluto. Si no aparece en la tabla principal, buscarla en el Kaplan-Meier.
- ¿Cuál es la RAR y cuál es el NNT? Calcularlos aplicando la fórmula Tasatto = 1 − (1 − Tasactrl)HR. Verificar que coinciden aproximadamente con los datos del Kaplan-Meier.
- Si hay análisis de subgrupos, ¿está reportado el p de interacción? Un subgrupo con p < 0,05 que no va acompañado de p de interacción significativo no justifica modificar la práctica clínica para ese grupo.
- ¿El intervalo de confianza excluye efectos clínicamente irrelevantes? Un IC 95% del HR que va de 0,90 a 1,02 incluye la hipótesis nula (HR = 1) y también incluye reducciones de HR pequeñas. Un IC que va de 0,65 a 0,85 excluye tanto el valor nulo como los efectos triviales: ofrece información mucho más sólida.
Resumen de conceptos clave
| Concepto | Qué es | Trampa frecuente | Cómo evitarla |
|---|---|---|---|
| Hazard ratio | Cociente de tasas instantáneas de evento entre dos grupos | Interpretarlo como probabilidad acumulada o como risk ratio | Distinguir tasa (HR) de probabilidad acumulada (RR) |
| Suposición de riesgos proporcionales | El HR es constante a lo largo del tiempo | No comprobarla; si se viola, el HR es un promedio no representativo | Exigir test de Schoenfeld o gráfico log-log en el suplemento |
| HR vs RR vs OR | Tres medidas distintas de efecto relativo | Usarlas como intercambiables en eventos comunes o seguimientos largos | Verificar el modelo estadístico en el análisis del ensayo |
| RAR y NNT | Beneficio absoluto del tratamiento | Ignorarlos; el HR solo da información relativa | Calcularlos siempre: NNT = 1 / [Tasactrl − Tasatto] |
| Análisis de subgrupos | Estimaciones del HR en subpoblaciones | Interpretar diferencias de HR entre subgrupos sin p de interacción | Exigir p de interacción; no bastan los p-valores del subgrupo |
| Intervalo de confianza | Rango de valores del HR compatible con los datos | Centrarse en el p-valor e ignorar la amplitud y los extremos del IC | Valorar qué efecto mínimo y máximo son compatibles con el IC 95% |
Preguntas frecuentes
¿Un hazard ratio de 0,75 significa que el riesgo se reduce un 25%?
No exactamente. Un HR de 0,75 significa que la tasa instantánea de eventos en el grupo tratamiento es en todo momento el 75% de la del grupo control, lo que equivale a una reducción relativa del 25% en esa tasa. Sin embargo, esta cifra no informa del beneficio absoluto. El mismo HR de 0,75 produce reducciones absolutas muy distintas según el riesgo basal: en una población con tasa de eventos del 4%, la reducción absoluta es de apenas un 1% y el NNT supera 100; en una población con tasa del 40%, la reducción absoluta sube a más del 8% y el NNT cae a 13. Hablar solo de la reducción relativa del 25% sin contextualizar el riesgo basal puede llevar a sobrevalorar el beneficio en pacientes de bajo riesgo.
¿Qué ocurre si no se cumple la suposición de riesgos proporcionales?
Si los riesgos no son proporcionales (el HR varía a lo largo del tiempo), el valor publicado es un promedio ponderado de los HR en distintos momentos del seguimiento, y puede no ser representativo de ninguno de ellos. Esto ocurre frecuentemente en ensayos de inmunoterapia oncológica (efecto tardío) o en fármacos con toxicidad precoz seguida de beneficio tardío. El test log-rank, utilizado habitualmente para obtener el p-valor en comparaciones de supervivencia, es más eficiente y alcanza su potencia óptima cuando se cumple la PHA; cuando esta se viola, puede perder potencia o distorsionar la comparación temporal, aunque técnicamente sigue siendo válido como contraste global de igualdad de curvas. Para detectar la violación se usan los residuos de Schoenfeld (p < 0,05 sugiere violación) o visualmente, representando log(−log(supervivencia)) frente al tiempo: si las curvas no son paralelas, los hazards no son proporcionales.
¿Cuál es la diferencia entre un hazard ratio y un risk ratio?
El hazard ratio compara las tasas instantáneas de evento en cada momento del seguimiento; el risk ratio compara las probabilidades acumuladas de evento al final de un periodo fijo. Para eventos muy raros (menos del 5-10%) y seguimientos cortos, ambas medidas son numéricamente próximas. Sin embargo, en ensayos con tasas de eventos altas o seguimientos prolongados el HR tiende a alejarse más del valor 1 que el RR: un HR de 0,60 puede corresponder a un RR de 0,68 en el mismo ensayo. Presentar un HR como si fuera un RR exagera la magnitud del efecto. El HR es la medida propia del modelo de Cox; el RR requiere especificar el tiempo de seguimiento al que se refiere.
¿Cómo calculo el NNT a partir del hazard ratio publicado?
El camino correcto es: (1) localizar la tasa de eventos acumulada en el brazo control al final del seguimiento (siempre está en los resultados del ensayo, a veces en el Kaplan-Meier); (2) estimar la tasa en el brazo tratamiento usando la fórmula: tasa tratamiento = 1 − (1 − tasa control)HR, que asume riesgos proporcionales; (3) calcular la reducción absoluta del riesgo (RAR) = tasa control − tasa tratamiento; y (4) NNT = 1 / RAR. El NNT siempre debe acompañarse del horizonte temporal (NNT a 2 años, a 5 años) porque sin ese dato no permite comparar beneficios entre ensayos distintos.
¿Por qué no debería interpretar los subgrupos de un forest plot como resultados independientes?
Porque realizar múltiples comparaciones en subgrupos sin corrección del error tipo I garantiza que algunos de ellos resulten significativos por azar. La pregunta estadística correcta no es «¿es el HR significativo dentro de cada subgrupo?» sino «¿el efecto del tratamiento difiere estadísticamente entre subgrupos?», lo que se responde con el p de interacción. Un p de interacción > 0,05 indica que no hay prueba suficiente para afirmar que el efecto difiere entre grupos, aunque algún subgrupo concreto tenga un HR significativo y otro no. Además, los análisis de subgrupos tienen mucho menos poder estadístico que el análisis principal, lo que hace que la mayoría de diferencias aparentes sean ruido estadístico, no señal clínica.
¿Un p menor de 0,05 garantiza que el efecto del tratamiento es clínicamente relevante?
No. La significación estadística solo indica que el efecto observado es poco probable bajo la hipótesis nula (sin efecto), pero no dice nada sobre su magnitud clínica. En ensayos con muestras muy grandes, diferencias de HR de 0,97 pueden alcanzar p < 0,001, aunque el NNT sea de miles de pacientes. La pieza de información más útil no es el p-valor sino el intervalo de confianza del 95%: su amplitud informa de la precisión de la estimación y sus extremos permiten valorar si incluso el beneficio mínimo compatible con los datos sería clínicamente relevante.
La interpretación correcta del hazard ratio en ensayos clínicos exige ir más allá del cociente relativo: verificar la suposición de riesgos proporcionales, calcular la reducción absoluta del riesgo y el número necesario a tratar, y evaluar los análisis de subgrupos con el p de interacción en lugar de los p-valores individuales. El hazard ratio es una herramienta estadística potente y su lectura crítica, la competencia metodológica más rentable en la práctica clínica cotidiana.
Laura Calpe Berdiel














































