Estructuras de los ensayos clínicos | Online Stream

2.5 Ensayos de no inferioridad

La justificación de los ensayos de no inferioridad es que, para evaluar adecuadamente una intervención, es necesaria una comparación con un grupo de control para poner en contexto los resultados de un brazo de intervención. Sin embargo, en el caso de la indicación médica en cuestión, la asignación aleatoria a un placebo no es ética debido a la disponibilidad de una terapia de eficacia probada. En los ensayos de no inferioridad, se selecciona una terapia eficaz existente para que sea el grupo de control «activo». Por esta razón, los ensayos de no inferioridad también se denominan «ensayos controlados activos».

El objetivo de un ensayo de no inferioridad es diferente al de un ensayo controlado con placebo. Ya no es necesario demostrar que la intervención es superior al control como en los ensayos controlados con placebo, sino que es deseable demostrar que la intervención es «al menos tan buena como» o «no peor que» (es decir, no inferior a) el control activo. Es de esperar que la intervención sea mejor que el control activo en otros aspectos (por ejemplo, que sea menos costosa, que tenga un mejor perfil de seguridad, que mejore la calidad de vida, que tenga un perfil de resistencia diferente, o que sea más conveniente o menos invasiva de administrar, por ejemplo, que requiera menos píldoras o que la duración del tratamiento sea más corta, lo que da lugar a una mejor adherencia). Por ejemplo, en el tratamiento del VIH, los investigadores buscan regímenes antirretrovirales menos complicados o menos tóxicos que puedan mostrar una eficacia similar a los regímenes existentes.

La no inferioridad no puede demostrarse con una prueba de superioridad no significativa. La estrategia tradicional de un ensayo de no inferioridad consiste en seleccionar un margen de no inferioridad (M) y si se puede demostrar que las diferencias de tratamiento están dentro del margen de no inferioridad (es decir, <M), se puede afirmar la no inferioridad. Las hipótesis nula y alternativa son H0: βT,control activo ≥M y HA: βT,control activo <M donde βT,control activo es el efecto de la terapia de intervención (T) en relación con el control activo. El análisis estándar consiste en construir un intervalo de confianza para la diferencia entre los brazos y observar si todo el intervalo de confianza está dentro de los límites del margen de no inferioridad. Por ejemplo, si el criterio de valoración primario es binario (por ejemplo, respuesta frente a ausencia de respuesta), se puede construir un intervalo de confianza para la diferencia en las tasas de respuesta (intervención menos el control activo). Si el límite inferior del intervalo de confianza es mayor que -M, entonces se pueden descartar diferencias importantes con una confianza razonable y se puede afirmar la no inferioridad. En la Figura 2, los intervalos de confianza A-F representan posibles escenarios de resultados de ensayos de no inferioridad. Los intervalos tienen diferentes centros y anchuras. Si el ensayo está diseñado para evaluar la superioridad, el fracaso en el rechazo de la hipótesis nula resulta de los escenarios A y D (ya que el intervalo de confianza no excluye el cero). La inferioridad se concluye a partir de los escenarios B, C y E, mientras que la superioridad se concluye a partir del escenario F. Si el ensayo está diseñado como un ensayo de no inferioridad, entonces un fallo en el rechazo de la hipótesis nula de inferioridad resulta de los escenarios A, B y C, pero la no inferioridad se afirma en los escenarios D, E y F, ya que el límite inferior del intervalo es >-M. A menudo se produce cierta confusión en el escenario E, en el que se concluye la inferioridad a partir de un ensayo de superioridad, pero se concluye la no inferioridad a partir de un ensayo de no inferioridad. Este caso pone de manifiesto la distinción entre significación estadística (es decir, el intervalo de confianza excluye el 0) y relevancia clínica (es decir, las diferencias son inferiores a M). El escenario A es un caso en el que no se puede afirmar ni la superioridad, ni la inferioridad, ni la no inferioridad porque el intervalo de confianza es demasiado amplio. Esto puede deberse a un tamaño de muestra pequeño o a una gran variación.

Un archivo externo que contiene una imagen, ilustración, etc. El nombre del objeto es nihms275040f2.jpg

Diseño de no inferioridad. P1 es la eficacia de la nueva terapia. P2 es la eficacia del grupo de control. -M es el margen de no inferioridad.

Los ensayos clínicos de no inferioridad se han vuelto muy comunes en la investigación clínica. Los ensayos de no inferioridad pueden ser «positivos», lo que da lugar a afirmaciones de no inferioridad, o «negativos», lo que da lugar a la imposibilidad de realizar una afirmación de no inferioridad. El estudio PROFESS fue un ensayo negativo de no inferioridad con un criterio de valoración de tiempo hasta el evento. El ensayo concluyó que la aspirina más dipiridamol de liberación prolongada no era inferior a clopidogrel para la prevención del ictus. El criterio de valoración primario fue el ictus recurrente y el margen de no inferioridad se fijó en una diferencia del 7,5% en el riesgo relativo. El IC del 95% para el cociente de riesgos fue (0,92, 1,11). Dado que el límite superior del IC era superior a 1,075, no se pudo concluir la no inferioridad. Por el contrario, en un ensayo clínico que evaluaba los tratamientos para la epilepsia recién diagnosticada, Keppra demostró ser no inferior a Carbatrol. El criterio de valoración primario fue la ausencia de convulsiones durante 6 meses y se estableció un margen de no inferioridad con una diferencia del 15%.

El IC del 95% para la diferencia de riesgo fue (-7,8%, 8,2%) y, por tanto, se concluyó la no inferioridad. (Brodie et al 2007)

Dos supuestos importantes asociados con el diseño de los ensayos de no inferioridad son la constancia y la sensibilidad del ensayo.

En los ensayos de no inferioridad, se selecciona un control activo porque ha demostrado ser eficaz (por ejemplo, superior al placebo) en un ensayo histórico. El supuesto de constancia establece que el efecto del control activo sobre el placebo en el ensayo histórico sería el mismo que el efecto en el ensayo actual si se incluyera un grupo de placebo. Esto podría no ser así si hubiera diferencias en la realización del ensayo (por ejemplo, diferencias en la administración del tratamiento, los criterios de valoración o la población) entre los ensayos históricos y los actuales. Esta suposición no se puede comprobar en el ensayo actual sin un grupo de placebo. El desarrollo de resistencia es una amenaza para la suposición de constancia.

Para permitir una evaluación de la retención de parte del efecto del control activo sobre el placebo, los participantes del estudio, los criterios de valoración y otras características importantes del diseño deben ser similares a los utilizados en los ensayos para demostrar la eficacia del control activo sobre el placebo. A continuación, se puede evaluar indirectamente el supuesto de constancia comparando la eficacia del control activo en el ensayo de no inferioridad y el ensayo histórico.

Los ensayos de no inferioridad son apropiados cuando existe una evidencia adecuada de un tamaño del efecto definido para el control activo de modo que se pueda justificar un margen de no inferioridad. Debe reunirse una síntesis completa de la evidencia que apoya el tamaño del efecto del control activo y el margen de no inferioridad. Por estas razones, muchos datos no apoyan un diseño de no inferioridad para algunas indicaciones.

La «sensibilidad del ensayo» es otro supuesto importante en el diseño de los ensayos de no inferioridad. La suposición de la sensibilidad del ensayo establece que el ensayo está diseñado de tal manera que es capaz de detectar las diferencias entre las terapias si realmente existen. A menos que el instrumento que mide la respuesta al tratamiento sea lo suficientemente sensible como para detectar las diferencias, las terapias mostrarán respuestas similares debido a la insensibilidad del instrumento, lo que podría llevar a una conclusión errónea de no inferioridad. Los criterios de valoración que se seleccionan, la forma de medirlos y la realización e integridad del ensayo pueden afectar a la sensibilidad del ensayo.

El control activo en un ensayo de no inferioridad debe seleccionarse cuidadosamente. La aprobación reglamentaria no implica necesariamente que una terapia pueda utilizarse como control activo. Lo ideal es que el control activo tenga una eficacia clínica que sea (1) de magnitud sustancial, (2) estimada con precisión en el entorno relevante en el que se realiza el ensayo de no inferioridad, y (3) preferiblemente cuantificada en múltiples ensayos. Dado que el tamaño del efecto del control activo en relación con el placebo se utiliza para guiar la selección del margen de no inferioridad, la superioridad respecto al placebo debe establecerse y medirse de forma fiable. Es necesario tener la seguridad de que el control activo sería superior al placebo si se empleara un placebo en el ensayo.

Recientemente ha habido preocupación por el desarrollo de estudios de no inferioridad que utilizan controles activos que violan el supuesto de constancia (es decir, la eficacia del control activo ha cambiado con el tiempo) o que no tienen una eficacia probada sobre el placebo. Los equipos de investigación suelen alegar que los ensayos controlados con placebo no son factibles porque (1) los placebos no son éticos debido a la existencia de otras intervenciones, (2) los pacientes no están dispuestos a inscribirse en ensayos controlados con placebo, y (3) las Juntas de Revisión Institucional cuestionan la ética del uso de placebos en estas situaciones.

Al seleccionar el control activo para un ensayo de no inferioridad, se debe considerar cómo se estableció la eficacia del control activo (por ejemplo, demostrando la no inferioridad con respecto a otro control activo frente a demostrar la superioridad con respecto al placebo). Si el control activo demostró ser eficaz a través de un ensayo de no inferioridad, entonces hay que tener en cuenta la preocupación por el biocreep. El biocreep es la tendencia a que una terapia ligeramente inferior (pero dentro del margen de no inferioridad) que ha demostrado ser eficaz a través de un ensayo de no inferioridad, sea el control activo en la siguiente generación de ensayos de no inferioridad. Múltiples generaciones de ensayos de no inferioridad utilizando controles activos que a su vez demostraron ser eficaces a través de ensayos de no inferioridad, podrían eventualmente resultar en la demostración de la no inferioridad de una terapia que no es mejor que el placebo. Lógicamente, la no inferioridad no es transitiva: si A es no inferior a B, y B es no inferior a C, entonces no se deduce necesariamente que A sea no inferior a C. Por estas razones, los ensayos de no inferioridad deben elegir generalmente los mejores controles activos disponibles.

La selección del margen de no inferioridad en los ensayos de no inferioridad es una cuestión compleja y que ha suscitado muchos debates. En general, la selección del margen de no inferioridad se realiza en la fase de diseño del ensayo y se utiliza para ayudar a determinar el tamaño de la muestra. La definición del margen de no inferioridad en los ensayos de no inferioridad depende del contexto y desempeña un papel directo en la interpretación de los resultados del ensayo. La selección del margen de no inferioridad es subjetiva pero estructurada, y requiere una combinación de razonamiento estadístico y juicio clínico. Conceptualmente, se puede considerar el margen de no inferioridad como la «máxima diferencia de tratamiento que es clínicamente irrelevante» o la «mayor diferencia de eficacia que es aceptable sacrificar para obtener las ventajas de la intervención». Este concepto a menudo requiere interacciones entre los estadísticos y los clínicos.

Dado que un objetivo indirecto de un ensayo de no inferioridad es demostrar que la intervención es superior al placebo, es necesario conservar parte del efecto del control activo sobre el placebo (a menudo denominado «preservar una fracción del efecto»). Por lo tanto, el margen de no inferioridad debe seleccionarse para que sea menor que el tamaño del efecto del control activo sobre el placebo. Los investigadores deben revisar los datos históricos que demostraron la superioridad del control activo sobre el placebo para ayudar a definir el margen de no inferioridad. Los investigadores también deben tener en cuenta la variabilidad de las estimaciones dentro y entre los ensayos. Idealmente, el margen de no inferioridad debería elegirse independientemente de la potencia del estudio, pero pueden surgir limitaciones prácticas, ya que la selección del margen de no inferioridad afecta drásticamente a la potencia del estudio.

Una estrategia para preservar la estimación del efecto es establecer el margen de no inferioridad en un porcentaje específico (por ejemplo, 50%) del efecto estimado del control activo frente al placebo. También se puede utilizar el «método del intervalo de confianza del 95%-95%». En esta estrategia, el margen de no inferioridad se establece en el límite inferior del intervalo de confianza del 95% para el efecto del control activo frente al placebo. Una mala elección del margen de no inferioridad puede dar lugar a un ensayo de no inferioridad fallido. En el ensayo SPORTIF V, se comparó el ximelegatrán con la war-farina (control activo) para la prevención del ictus en pacientes con fibrilación auricular. La tasa de eventos de la warfarina fue del 1,2% y el margen de no inferioridad se fijó en el 2% (diferencia absoluta en las tasas de eventos) basándose en los datos históricos. Dado que la tasa de eventos en el brazo de la warfarina era baja, la no inferioridad podía concluirse incluso si el ensayo no podía descartar una duplicación de la tasa de eventos. Por estas razones, la selección del margen de no inferioridad debe incorporar consideraciones estadísticas así como consideraciones de relevancia clínica.

Una pregunta natural es si un margen de no inferioridad puede ser cambiado después del inicio del ensayo. En general, hay poca preocupación con respecto a la disminución del margen de no inferioridad. Sin embargo, el aumento del margen de no inferioridad puede percibirse como una manipulación a menos que se justifique adecuadamente (es decir, que se base en datos externos que sean independientes del ensayo).

El tamaño de la muestra depende de la selección del margen de no inferioridad y de otros parámetros. Los tamaños de muestra requeridos aumentan con un margen de no inferioridad decreciente. La estratificación puede ayudar, ya que los intervalos de confianza ajustados suelen ser más estrechos que los no ajustados. Los investigadores deben dotar de potencia a los ensayos de no inferioridad para un análisis por protocolo, así como para un análisis por intención de tratar (ITT), dada la importancia de ambos análisis (descritos más adelante). Los investigadores también deben sopesar los costes del error de tipo I (es decir, declarar incorrectamente la no inferioridad) y del error de tipo II (es decir, no declarar incorrectamente la no inferioridad). Un enfoque para dimensionar un ensayo de no inferioridad es ver el ensayo desde una perspectiva de estimación. La estrategia consiste en estimar la diferencia entre los tratamientos con la precisión adecuada (medida por la amplitud de un intervalo de confianza). A continuación, hay que dimensionar el estudio para garantizar que la amplitud del intervalo de confianza para la diferencia entre tratamientos sea aceptable.

Los análisis intermedios de los ensayos de no inferioridad pueden ser complicados. Por lo general, se necesitan pruebas abrumadoras para sugerir que se detenga un ensayo de no inferioridad durante los análisis intermedios. Además, es posible que no haya un imperativo ético para detener un ensayo que ha demostrado la no inferioridad (en contraste con los estudios de superioridad, en los que si se demuestra la superioridad, puede haber imperativos éticos para detener el estudio, ya que la aleatorización a un brazo inferior puede considerarse poco ética). Además, incluso si se demuestra la no inferioridad en un punto de tiempo intermedio, puede ser deseable continuar el estudio para evaluar si se puede demostrar la superioridad con la continuación del ensayo. No es infrecuente detener un ensayo de no inferioridad por futilidad (es decir, por no poder demostrar la no inferioridad). El uso de intervalos de confianza repetidos para controlar las tasas de error con gráficos de intervalos predichos (Evans et al 2007a; Li et al 2009) pueden ayudar a los comités de supervisión de datos en la toma de decisiones intermedias.

Los enfoques tradicionales del diseño y los análisis de los ensayos de no inferioridad han sido criticados recientemente al observar que no se distingue entre los dos subobjetivos distintos de los ensayos de no inferioridad: (1) demostrar que la intervención no es inferior al control activo, y (2) demostrar que la intervención es superior al placebo teniendo en cuenta la evidencia histórica. El diseño de un ensayo de no inferioridad puede lograrse planificando la comprobación de dos hipótesis distintas. Un ensayo concreto puede cumplir sólo uno de los dos subobjetivos. Si se demuestra que la intervención es superior al placebo pero no se demuestra la no inferioridad con respecto al control activo, el uso de la intervención puede estar indicado para los pacientes en los que el control activo está contraindicado o no está disponible. Por el contrario, la intervención podría demostrar la no inferioridad con respecto al control activo pero no la superioridad con respecto al placebo. Esto puede ocurrir cuando la eficacia del control activo es modesta. Recientemente se ha afirmado que el segundo de los dos subobjetivos (es decir, demostrar la superioridad al placebo) es el objetivo de interés en el ámbito regulatorio. Los grupos de la industria han argumentado que la aprobación reglamentaria de las nuevas terapias debe basarse en la evidencia de la superioridad al placebo (demostración de un beneficio clínicamente significativo) y no necesariamente en la no inferioridad con respecto a un control activo. Los defensores de esta perspectiva (a menudo denominada «método de síntesis») plantean varios dilemas e incoherencias con los enfoques tradicionales de los ensayos de no inferioridad en apoyo de esta posición. En primer lugar, la intervención podría parecer mejor que el control activo pero no cumplir la condición de preservación del efecto. En segundo lugar, dos ensayos con diferentes controles activos tienen diferentes estándares de éxito. En tercer lugar, si la intervención se muestra superior a un control activo, una pregunta natural que surge es si el control activo debe ser retirado del mercado. El argumento básico es que el grado de eficacia requerido debería ser independiente del diseño (superioridad frente a no inferioridad) y que la superioridad al placebo es el estándar para la aprobación regulatoria. Los defensores del método de síntesis argumentan, por tanto, que la terminología de «ensayo de no inferioridad» es inapropiada, ya que la superioridad de la intervención respecto al placebo es el verdadero objetivo.

Una alternativa de diseño científicamente atractiva es realizar un ensayo de tres brazos que conste de la intervención, el control activo y un brazo de placebo. Este diseño es especialmente atractivo cuando la eficacia del control activo ha cambiado, es volátil o está en duda. Este diseño permite evaluar la no inferioridad y la superioridad respecto al placebo directamente, y permite la validación dentro del ensayo del margen de no inferioridad. Lamentablemente, este diseño no se implementa con frecuencia debido a la preocupación por la naturaleza poco ética del brazo de placebo en algunos entornos.

La elección del margen de no inferioridad desempeña un papel directo en la interpretación del ensayo de no inferioridad, a diferencia de la diferencia mínima clínicamente relevante que suele definirse en los ensayos de superioridad. Por lo tanto, la justificación del margen de no inferioridad debe ser esbozada en los análisis. El análisis de los ensayos de no inferioridad también utiliza información ajena al ensayo actual para inferir el efecto de la intervención frente al placebo en ausencia de una comparación directa. Así, se recomienda comparar la tasa de respuesta, la adherencia, etc. del control activo en el ensayo de no inferioridad con los ensayos históricos que compararon el control activo con el placebo y proporcionaron pruebas de la eficacia del control activo. Si el control activo muestra una eficacia diferente a la de los ensayos anteriores, entonces la validez del margen de no inferioridad predefinido puede ser sospechosa, y la interpretación de los resultados será un reto.

El enfoque general del análisis es calcular un intervalo de confianza de 2 lados (un valor p no es generalmente apropiado). Una pregunta común es si es aceptable un intervalo de confianza de 0,05, dada la naturaleza unilateral de la no inferioridad; sin embargo, los intervalos de confianza de 2 lados son generalmente apropiados para la coherencia entre la prueba de significación y la estimación posterior. Obsérvese que un intervalo de confianza del 95% unilateral reduciría el nivel de evidencia para sacar conclusiones en comparación con la práctica aceptada en los ensayos de superioridad.

En los estudios de superioridad, un análisis basado en la intención de tratar (ITT) tiende a ser conservador (es decir, hay una tendencia a subestimar las verdaderas diferencias de tratamiento). Como resultado, los análisis ITT se consideran generalmente los análisis primarios en los ensayos de superioridad, ya que esto ayuda a proteger la tasa de error de tipo I. Dado que el objetivo de los ensayos de no inferioridad es mostrar la no inferioridad o la similitud, una subestimación de la verdadera diferencia de tratamiento puede sesgar hacia la no inferioridad, inflando así la tasa de error de «falso positivo» (es decir, la afirmación incorrecta de no inferioridad). Por lo tanto, el ITT no es necesariamente conservador en los ensayos de no inferioridad. Por estas razones, un análisis ITT y un análisis por protocolo (es decir, un análisis basado en los participantes del estudio que se adhirieron al protocolo) se consideran a menudo como análisis co-primarios en los ensayos de no inferioridad. Es importante realizar ambos análisis (y tal vez análisis de sensibilidad adicionales) para evaluar la solidez del resultado del ensayo. Los análisis por protocolo suelen dar lugar a un tamaño del efecto mayor, ya que el ITT a menudo diluye la estimación del efecto, pero con frecuencia da lugar a intervalos de confianza más amplios, ya que se basa en un menor número de participantes en el estudio que el ITT.

Si se lleva a cabo un ensayo de no inferioridad y se demuestra la no inferioridad de la intervención con respecto a un control activo, entonces una pregunta natural es si se puede hacer una afirmación más sólida de superioridad. En otras palabras, ¿cuáles son las ramificaciones de pasar de un ensayo de no inferioridad a un ensayo de superioridad? Por el contrario, si se realiza un ensayo de superioridad y no se observan diferencias significativas entre los grupos, la pregunta natural es si se puede concluir una afirmación más débil de no inferioridad. ¿Se puede pasar de un ensayo de superioridad a un ensayo de no inferioridad?

En general, se considera aceptable realizar una evaluación de superioridad después de demostrar la no inferioridad. Debido al principio de ensayo cerrado, no es necesario un ajuste de multiplicidad. Los análisis por intención de tratar y por protocolo son importantes para los análisis de no inferioridad, pero el análisis por intención de tratar es el más importante para la evaluación de la superioridad. Es más difícil justificar una afirmación de no inferioridad después de no poder demostrar la superioridad. Hay que tener en cuenta varias cuestiones. En primer lugar, una consideración importante es si se ha preespecificado un margen de no inferioridad. Definir el margen de no inferioridad a posteriori puede ser difícil de justificar y puede percibirse como una manipulación. La elección del margen de no inferioridad debe ser independiente de los datos del ensayo (es decir, basarse en información externa), lo que es difícil de demostrar después de que los datos hayan sido recogidos y desenmascarados. En segundo lugar, ¿es el grupo de control un grupo de control apropiado para un ensayo de no inferioridad (por ejemplo, ha demostrado y medido con precisión la superioridad sobre el placebo)? Tercero, ¿fue la eficacia del grupo de control similar a la mostrada en los ensayos históricos frente al placebo (hipótesis de constancia)? En cuarto lugar, los análisis por intención de tratar y por protocolo adquieren la misma importancia. En quinto lugar, la calidad del ensayo debe ser alta (adherencia aceptable y pocos abandonos). Sexto, la sensibilidad del ensayo debe ser aceptable.

La información de los ensayos de no inferioridad ha sido subóptima en la literatura médica. Greene y sus coautores, en la revista Annals of Internal Medicine, revisaron 88 estudios que afirmaban la no inferioridad, pero observaron que el 67% de estos estudios afirmaban la no superioridad basándose en pruebas de superioridad no significativas. (Greene et al 2000) Además, sólo el 23% de los estudios preespecificaron un margen de no inferioridad. Piaggio y sus coautores publicaron en el Journal of the American Medical Association una ampliación de la declaración CONSORT para describir la información adecuada de los ensayos de no inferioridad. (Piaggio et al 2006) Actualmente se está elaborando un documento de orientación de la FDA sobre los ensayos de no inferioridad.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.