2,5 Ensaios de não-inferioridade
A lógica dos ensaios de não-inferioridade é que, para avaliar apropriadamente uma intervenção, é necessária uma comparação com um grupo de controlo para contextualizar os resultados de um braço de intervenção. No entanto, para a indicação médica visada, a randomização para um placebo não é ética, devido à disponibilidade de uma terapia comprovadamente eficaz. Em ensaios de não-inferioridade, uma terapia eficaz existente é seleccionada para ser o grupo de controlo “activo”. Por esta razão, os ensaios não-inferioritários também são chamados de “ensaios controlados por placebo”.
O objectivo de um ensaio não-inferioritário é diferente de um ensaio controlado por placebo. Não é mais necessário mostrar que a intervenção é superior ao controle como nos ensaios placebo-controlados, mas é desejável mostrar que a intervenção é “pelo menos tão boa quanto” ou “não pior que” (ou seja, não-inferior a) o controle ativo. Espera-se que a intervenção seja melhor que o controle ativo de outras formas (por exemplo, menos cara, melhor perfil de segurança, melhor qualidade de vida, perfil de resistência diferente, ou mais conveniente ou menos invasiva para administrar, como exigir menos comprimidos ou uma duração de tratamento mais curta resultando em melhor aderência). Por exemplo, no tratamento do VIH, os investigadores procuram regimes anti-retrovirais menos complicados ou menos tóxicos que possam apresentar uma eficácia semelhante aos regimes existentes.
Noninferioridade não pode ser demonstrada com um teste não significativo de superioridade. A estratégia tradicional de um ensaio de não-inferioridade é seleccionar uma margem de não-inferioridade (M) e se se puder demonstrar que as diferenças de tratamento estão dentro da margem de não-inferioridade (ou seja, <M) então a não-inferioridade pode ser reivindicada. As hipóteses nulas e alternativas são H0: βT,controle ativo ≥M e HA: βT,controle ativo <M onde βT,controle ativo é o efeito da terapia de intervenção (T) em relação ao controle ativo. A análise padrão é construir um intervalo de confiança para a diferença entre braços e observar se todo o intervalo de confiança está dentro dos limites da margem de não-inferioridade. Por exemplo, se o ponto final primário for binário (por exemplo, resposta vs. nenhuma resposta), então um intervalo de confiança para a diferença nas taxas de resposta (intervenção menos o controle ativo) pode ser construído. Se o limite inferior do intervalo de confiança for maior que -M, então diferenças importantes podem ser descartadas com confiança razoável e a não-inferioridade pode ser reivindicada. Na Figura 2, os intervalos de confiança A-F representam potenciais cenários de resultados de ensaios de não-inferioridade. Os intervalos têm centros e larguras diferentes. Se o estudo é projetado para avaliar a superioridade, então a não rejeição da hipótese nula resulta dos cenários A e D (já que o intervalo de confiança não exclui zero). A inferioridade é concluída a partir dos cenários B, C e E, enquanto a superioridade é concluída a partir do cenário F. Se o ensaio for desenhado como um ensaio de não inferioridade, então a não rejeição da hipótese nula de inferioridade resulta dos cenários A, B e C, mas a não inferioridade é reivindicada nos cenários D, E e F, uma vez que o limite inferior do intervalo é >-M. Alguma confusão resulta frequentemente do cenário E em que a inferioridade é concluída a partir de um ensaio de superioridade mas a não-inferioridade é concluída a partir de um ensaio de não-inferioridade. Este caso destaca a distinção entre significância estatística (ou seja, o intervalo de confiança exclui 0) e relevância clínica (ou seja, as diferenças são menores que M). O Cenário A é um caso em que nem a superioridade, nem a inferioridade, nem a não-inferioridade podem ser reivindicadas porque o intervalo de confiança é muito amplo. Isto pode ser devido a um pequeno tamanho de amostra ou grande variação.
Desenho de não-inferioridade. P1 é a eficácia da nova terapia. P2 é a eficácia do grupo de controle. -M é a margem de não-inferioridade.
Os ensaios clínicos de não-inferioridade tornaram-se muito comuns na investigação clínica. Os ensaios de não-inferioridade podem ser “positivos” resultando em alegações de não-inferioridade ou “negativos” resultando na incapacidade de fazer uma alegação de não-inferioridade. O estudo PROFESS foi um estudo de não-inferioridade negativo com um desfecho de tempo para o evento. O estudo concluiu que a aspirina mais o dipiridamol de liberação prolongada não era uma não-inferioridade para clopidogrel para prevenção de derrames. O desfecho primário foi acidente vascular cerebral recorrente e uma margem de não-inferioridade foi estabelecida em uma diferença de 7,5% no risco relativo. O IC 95% para a razão de risco foi (0,92, 1,11). Como o limite superior do IC era maior que 1,075, a não-inferioridade não pôde ser concluída. Em contraste, em um estudo clínico avaliando tratamentos para epilepsia recém-diagnosticada, o Keppra mostrou-se não-inferior ao Carbatrol. O desfecho primário foi 6 meses sem convulsões e a margem de não-inferioridade foi fixada em uma diferença de 15%.
O IC 95% para a diferença de risco foi (-7,8%, 8,2%) e, portanto, a não-inferioridade foi concluída. (Brodie et al 2007)
Duas importantes suposições associadas ao desenho de ensaios de não-inferioridade são constância e sensibilidade do ensaio.
Em ensaios de não-inferioridade, um controle ativo é selecionado porque se mostrou eficaz (por exemplo, superior ao placebo) em um ensaio histórico. A hipótese de constância afirma que o efeito do controle ativo sobre o placebo no estudo histórico seria o mesmo que o efeito no estudo atual se um grupo de placebo fosse incluído. Este pode não ser o caso se houvesse diferenças na condução do estudo (por exemplo, diferenças na administração do tratamento, desfechos ou população) entre o estudo histórico e o atual. Esta suposição não é testada no estudo atual sem um grupo placebo. O desenvolvimento de resistência é uma ameaça à suposição de constância.
Para permitir uma avaliação da retenção de alguns dos efeitos do controle ativo sobre placebo, participantes do estudo, desfechos e outras características importantes do desenho devem ser similares aos usados nos estudos para demonstrar a eficácia do controle ativo sobre placebo. Pode-se então avaliar indiretamente a hipótese de constância comparando a eficácia do controle ativo no estudo de não-inferioridade e no estudo histórico.
Os estudos de não-inferioridade são apropriados quando há evidência adequada de um tamanho de efeito definido para o controle ativo, para que uma margem de não-inferioridade possa ser justificada. Uma síntese abrangente da evidência que suporta o tamanho do efeito do controle ativo e a margem de não-inferioridade deve ser montada. Por estas razões, os dados que muitos não suportam um desenho de não-inferioridade para algumas indicações.
“Sensibilidade do ensaio” é outra importante suposição no desenho de ensaios de não-inferioridade. A suposição da sensibilidade do ensaio declara que o ensaio é concebido de tal forma que é capaz de detectar diferenças entre as terapias, se elas realmente existirem. A menos que o instrumento que está medindo a resposta ao tratamento seja sensível o suficiente para detectar diferenças, então as terapias exibirão respostas semelhantes devido à insensibilidade do instrumento, possivelmente resultando na conclusão errônea de não-inferioridade. Os pontos finais que são selecionados, como eles são medidos, e a condução e integridade do estudo podem afetar a sensibilidade do ensaio.
O controle ativo em um estudo de não-inferioridade deve ser selecionado cuidadosamente. A aprovação regulamentar não implica necessariamente que uma terapia possa ser usada como um controle ativo. O ideal é que o controle ativo tenha eficácia clínica, ou seja: (1) de magnitude substancial, (2) estimada com precisão no ambiente relevante em que o estudo não-inferioritário está sendo realizado, e (3) de preferência quantificada em múltiplos estudos. Uma vez que o tamanho do efeito do controle ativo em relação ao placebo é usado para orientar a seleção da margem de não-inferioridade, a superioridade em relação ao placebo deve ser estabelecida e medida de forma confiável. A garantia de que o controle ativo seria superior ao placebo se um placebo fosse empregado no estudo é necessária.
Recentemente tem havido preocupação sobre o desenvolvimento de estudos de não-inferioridade usando controles ativos que violam a suposição de constância (ou seja, a eficácia do controle ativo mudou com o tempo) ou que não têm eficácia comprovada sobre o placebo. As equipas de investigação frequentemente afirmam que os ensaios controlados por placebo não são viáveis porque: (1) os placebos não são éticos devido à existência de outras intervenções, (2) os pacientes não estão dispostos a se inscrever em estudos controlados por placebo, e (3) os Quadros de Revisão Institucional questionam a ética do uso de placebos nessas situações.
Ao selecionar o controle ativo para um estudo não-inferioritário, deve-se considerar como a eficácia do controle ativo foi estabelecida (por exemplo, mostrando não-inferioridade para outro controle ativo vs. mostrando superioridade para placebo). Se o controlo activo se mostrou eficaz através de um ensaio de não-inferioridade, então é necessário considerar a preocupação com o biocreep. Biocreep é a tendência para uma terapia ligeiramente inferior (mas dentro da margem de não-inferioridade) que se mostrou eficaz através de um ensaio de não-inferioridade, para ser o controlo activo na próxima geração de ensaios de não-inferioridade. Várias gerações de ensaios de não-inferioridade, utilizando controlos activos que se mostraram eficazes através de ensaios de não-inferioridade, poderiam eventualmente resultar na demonstração da não-inferioridade de uma terapia que não é melhor do que placebo. Logicamente, a não-inferioridade não é transitória: se A é não-inferior a B, e B é não-inferior a C, então não necessariamente segue que A é não-inferior a C. Por estas razões, os ensaios de não-inferioridade devem geralmente escolher os melhores controlos activos disponíveis.
A selecção da margem de não-inferioridade nos ensaios de não-inferioridade é uma questão complexa e que tem criado muita discussão. Em geral, a seleção da margem de não-inferioridade é feita na fase de desenho do estudo e é utilizada para ajudar a determinar o tamanho da amostra. A definição da margem de não-inferioridade em estudos de não-inferioridade depende do contexto e tem um papel direto na interpretação dos resultados do estudo. A seleção da margem de não-inferioridade é subjetiva, mas estruturada, exigindo uma combinação de raciocínio estatístico e julgamento clínico. Conceitualmente, pode-se ver a margem de não-inferioridade como a “diferença máxima de tratamento que é clinicamente irrelevante” ou a “maior diferença de eficácia que é aceitável sacrificar para obter as vantagens da intervenção”. Este conceito frequentemente requer interações entre estatísticos e clínicos.
Desde que um objetivo indireto de um ensaio de não-inferioridade é mostrar que a intervenção é superior ao placebo, algum do efeito do controle ativo sobre o placebo precisa ser retido (freqüentemente chamado de “preservar uma fração do efeito”). Assim, a margem de não-inferioridade deve ser selecionada para ser menor do que o tamanho do efeito do controle ativo sobre o placebo. Os pesquisadores devem rever os dados históricos que demonstraram a superioridade do controle ativo sobre placebo para ajudar na definição da margem de não-inferioridade. Os pesquisadores também devem considerar a variabilidade dentro e entre julgamentos também nas estimativas. Idealmente a margem de não-inferioridade deve ser escolhida independentemente do poder do estudo, mas podem surgir limitações práticas, já que a seleção da margem de não-inferioridade afeta dramaticamente o poder do estudo.
Uma estratégia para preservar a estimativa do efeito é definir a margem de não-inferioridade para uma porcentagem específica (por exemplo, 50%) do efeito de controle ativo estimado vs. placebo. Alternativamente, poderia ser usado o “método do intervalo de confiança 95%-95%”. Nesta estratégia, a margem de não-inferioridade é definida para o limite inferior do intervalo de confiança de 95% para o efeito do controle ativo vs. placebo. Uma má escolha de uma margem de não-inferioridade pode resultar em um ensaio de não-inferioridade falhado. No ensaio SPORTIF V, o ximelegatran foi comparado ao war-farin (controlo activo) para prevenção de AVC em pacientes com fibrilação atrial. A taxa de eventos para warfarin foi de 1,2% e a margem de não-inferioridade foi fixada em 2% (diferença absoluta nas taxas de eventos) com base em dados históricos. Como a taxa de eventos no braço da warfarina foi baixa, a não-inferioridade pôde ser concluída mesmo que o estudo não pudesse descartar uma duplicação da taxa de eventos. Por estas razões, a seleção da margem de não-inferioridade deve incorporar considerações estatísticas, bem como considerações de relevância clínica.
Uma questão natural é se uma margem de não-inferioridade pode ser alterada após o início do estudo. Em geral, há pouca preocupação quanto a uma diminuição da margem de não-inferioridade. Entretanto, o aumento da margem de não-inferioridade pode ser percebido como manipulação, a menos que adequadamente justificado (ou seja, com base em dados externos independentes do estudo).
O tamanho da amostra depende da seleção da margem de não-inferioridade e outros parâmetros. Os tamanhos de amostra requeridos aumentam com uma margem de não-inferioridade decrescente. A estratificação pode ajudar uma vez que os intervalos de confiança ajustados são geralmente mais estreitos do que os intervalos de confiança não ajustados. Os pesquisadores devem alimentar ensaios de não-inferioridade para uma análise por protocolo, bem como uma análise de intenção de tratamento (ITT), dada a importância de ambas as análises (descritas mais adiante). Os pesquisadores também precisam pesar os custos do erro Tipo I (ou seja, alegar incorretamente a não-inferioridade) e do erro Tipo II (ou seja, não alegar incorretamente a não-inferioridade). Uma abordagem para dimensionar um ensaio de não-inferioridade é ver o ensaio a partir de uma perspectiva de estimativa. A estratégia é estimar a diferença entre tratamentos com precisão apropriada (medida pela largura de um intervalo de confiança). Em seguida, dimensionar o estudo para garantir que a largura do intervalo de confiança para a diferença entre tratamentos seja aceitável.
Análises intermédias de ensaios de não-inferioridade podem ser complicadas. Geralmente são necessárias evidências esmagadoras para sugerir a interrupção de um ensaio por não-inferioridade durante as análises interinas. Também pode não haver um imperativo ético para parar um estudo que tenha mostrado não-inferioridade (em contraste com estudos de superioridade com os quais se a superioridade for demonstrada, então pode haver imperativos éticos para parar o estudo uma vez que a randomização para um braço inferior pode ser vista como antiética). Além disso, mesmo se a não-inferioridade for demonstrada em um ponto intermediário, pode ser desejável continuar o estudo para avaliar se a superioridade poderia ser demonstrada com a continuação do estudo. Não é raro parar um ensaio de não-inferioridade por futilidade (ou seja, incapaz de demonstrar não-inferioridade). Uso de intervalos de confiança repetidos para controlar as taxas de erro com gráficos de intervalos previstos (Evans et al. 2007a; Li et al 2009) podem ajudar os comités de monitorização de dados com tomada de decisão provisória.
As abordagens tradicionais à concepção e análise de ensaios de não-inferioridade têm sido criticadas recentemente, observando-se uma falha na distinção entre os dois sub-objectivos distintos dos ensaios de não-inferioridade: (1) demonstrar que a intervenção é não-inferior ao controle ativo, e (2) demonstrar que a intervenção é superior ao placebo, levando em conta as evidências históricas. O desenho de um ensaio de não-inferioridade pode ser realizado através do planejamento do teste de duas hipóteses distintas. Um determinado estudo pode realizar apenas um dos dois sub-objectivos. Se a intervenção for superior ao placebo mas não demonstrar não-inferioridade ao controle ativo, então o uso de intervenção pode ser indicado para pacientes que o controle ativo está contra-indicado ou não disponível. Em contraste, a intervenção pode ser mostrada como não-inferioridade ao controle ativo, mas não superior ao placebo. Isto pode ocorrer quando a eficácia do controlo activo é modesta. Recentemente tem havido alegações de que o 2º dos dois sub-objetivos (ou seja, demonstrar superioridade ao placebo) é o objetivo de interesse no ambiente regulatório. Grupos industriais têm argumentado que a aprovação regulamentar de novas terapias deve ser baseada em evidências de superioridade ao placebo (demonstração de benefício clinicamente significativo) e não necessariamente de não-inferioridade a um controle ativo. Os defensores desta perspectiva (frequentemente chamados de “método de síntese”) colocam vários dilemas e inconsistências com as abordagens tradicionais de ensaios de não-inferioridade em apoio a esta posição. Primeiro, a intervenção poderia parecer melhor do que o controle ativo, mas não atender à preservação da condição de efeito. Em segundo lugar, dois ensaios com controlos activos diferentes têm padrões diferentes para o sucesso. Terceiro, se a intervenção se mostrar superior a um controle ativo, então uma questão natural que surge é se o controle ativo deve ser retirado do mercado? O argumento básico é que o grau de eficácia exigido deve ser independente do desenho (superioridade versus não-inferioridade) e que a superioridade em relação ao placebo é o padrão para aprovação regulatória. Assim, os defensores do método de síntese argumentam que a terminologia de “ensaio de não-inferioridade” é inadequada, uma vez que a superioridade da intervenção ao placebo é o verdadeiro objetivo.
Um desenho alternativo cientificamente atraente é ter um ensaio de 3 braços que consiste na intervenção, no controle ativo, e um braço placebo. Este desenho é particularmente atraente quando a eficácia do controle ativo mudou, é volátil, ou está em dúvida. Este desenho permite a avaliação da não-inferioridade e superioridade do placebo diretamente, e permite a validação dentro do julgamento da margem de não-inferioridade. Infelizmente, este desenho não é frequentemente implementado devido a uma preocupação pela natureza antiética do braço placebo em alguns ambientes.
A escolha da margem de não-inferioridade tem um papel direto na interpretação do ensaio de não-inferioridade, ao contrário da diferença mínima clinicamente relevante que muitas vezes é definida em ensaios de superioridade. Assim, a justificação para a margem de não-inferioridade deve ser delineada nas análises. A análise dos estudos de não-inferioridade também usa informações fora do estudo atual para inferir o efeito da intervenção vs. placebo na ausência de uma comparação direta. Assim, recomenda-se que uma comparação da taxa de resposta, aderência, etc. do controle ativo no estudo de não-inferioridade seja comparada com estudos históricos que compararam o controle ativo com placebo e forneceram evidências da eficácia do controle ativo. Se o controlo activo apresentar uma eficácia diferente da dos ensaios anteriores, então a validade da margem de não-inferioridade pré-definida pode ser suspeita, e a interpretação dos resultados será desafiadora.
A abordagem geral da análise é calcular um intervalo de confiança de 2 lados (um valor p não é geralmente apropriado). Uma questão comum é se um intervalo de confiança de 1 lado 0,05 é aceitável dada a natureza de não-inferioridade de 1 lado; contudo, intervalos de confiança de 2 lados são geralmente apropriados para a consistência entre o teste de significância e a estimativa subsequente. Note que um intervalo de confiança unilateral de 95% diminuiria o nível de evidência para tirar conclusões em comparação com a prática aceita em estudos de superioridade.
Em estudos de superioridade, uma análise baseada na intenção de tratar (ITT) tende a ser conservadora (ou seja, há uma tendência para subestimar as verdadeiras diferenças de tratamento). Como resultado, as análises ITT são geralmente consideradas as análises primárias em ensaios de superioridade, uma vez que isso ajuda a proteger a taxa de erro do Tipo I. Como o objetivo dos ensaios de não-inferioridade é mostrar não-inferioridade ou similaridade, uma subestimação da verdadeira diferença de tratamento pode enviesar a não-inferioridade, inflando assim a taxa de erro “falso positivo” (ou seja, alegando incorretamente não-inferioridade). Assim, o ITT não é necessariamente conservador em ensaios de não-inferioridade. Por estas razões, uma análise do ITT e uma análise por protocolo (ou seja, uma análise baseada em participantes do estudo que aderiram ao protocolo) são frequentemente consideradas como análises co-primárias em ensaios de não-inferioridade. É importante realizar ambas as análises (e talvez análises de sensibilidade adicionais) para avaliar a robustez do resultado do estudo. As análises por protocolo frequentemente resultam em um tamanho maior do efeito, uma vez que o ITT frequentemente dilui a estimativa do efeito, mas frequentemente resulta em intervalos de confiança maiores, uma vez que se baseia em menos participantes do estudo do que o ITT.
Se um estudo de não-inferioridade é conduzido e a não-inferioridade da intervenção a um controle ativo é demonstrada, então uma questão natural é se uma reivindicação mais forte de superioridade pode ser feita. Em outras palavras, quais são as ramificações da mudança de um ensaio de não-inferioridade para um ensaio de superioridade? Pelo contrário, se um ensaio de superioridade for conduzido e não forem observadas diferenças significativas entre grupos, então uma questão natural é se uma alegação mais fraca de não-inferioridade pode ser concluída. Pode-se mudar de um estudo de superioridade para um estudo de não inferioridade?
Em geral, considera-se aceitável conduzir uma avaliação de superioridade depois de mostrar a não inferioridade. Devido ao princípio de teste fechado, nenhum ajuste de multiplicidade é necessário. As análises de intenção de tratamento e por protocolo são ambas importantes para as análises de não-inferioridade, mas as análises de intenção de tratamento são as análises mais importantes para a avaliação da superioridade. É mais difícil justificar uma alegação de não-inferioridade depois de não demonstrar a superioridade. Há várias questões a considerar. Primeiro, se uma margem de não-inferioridade foi pré-especificada é uma consideração importante. Definir a margem de não-inferioridade pós-hoc pode ser difícil de justificar e pode ser percebida como manipulação. A escolha da margem de não-inferioridade precisa ser independente dos dados do estudo (ou seja, baseada em informações externas), o que é difícil de demonstrar depois que os dados foram coletados e não cegos. Segundo, o grupo controle é um grupo controle apropriado para um ensaio de não-inferioridade (por exemplo, ele demonstrou e mediu com precisão a superioridade sobre o placebo)? Terceiro, a eficácia do grupo controle foi semelhante àquela exibida em ensaios históricos vs. placebo (suposição de constância)? Quarto, as análises de intenção de tratamento e por protocolo tornam-se igualmente importantes. Quinto, a qualidade dos ensaios deve ser elevada (aderência aceitável e poucas desistências). Sexto, a sensibilidade do ensaio deve ser aceitável.
O relato de ensaios de não-inferioridade tem sido subótimo na literatura médica. Greene e co-autores no Annals of Internal Medicine revisaram 88 estudos que afirmaram não-inferioridade, mas observaram que 67% desses estudos afirmaram não-inferioridade com base em testes de superioridade não significativa. (Greene et al 2000) Além disso, apenas 23% dos estudos pré-especificaram uma margem de não-inferioridade. Piaggio e co-autores publicaram uma extensão da declaração do CONSORT para delinear relatórios apropriados de ensaios de não-inferioridade no Journal of the American Medical Association. (Piaggio et al 2006) Um documento de orientação da FDA sobre ensaios de não-inferioridade está atualmente em construção.