臨床試験の構造 | Online Stream

2.5 非劣性試験

非劣性試験の根拠は、介入を適切に評価するために、介入群の結果を文脈に置くために対照群との比較が必要であることである。 しかし,対象となる適応症では,有効性が証明されている治療法があるため,プラセボに無作為に割り当てることは倫理的に問題がある。 非劣性試験では、既存の有効な治療法が「有効な」対照群として選択されます。 このため、非劣性試験は「活性対照試験」とも呼ばれます。

非劣性試験の目的は、プラセボ対照試験とは異なります。 プラセボ対照試験のように介入が対照より優れていることを示す必要はもはやなく,代わりに介入が活性対照と「少なくとも同程度」あるいは「それ以上」悪くないこと(すなわち非劣性)を示すことが望ましいとされる。 うまくいけば、介入は他の点で積極的対照より優れている(例えば、より安価、より良い安全性プロファイル、より良い生活の質、異なる耐性プロファイル、または、より少ない錠剤を必要とする、またはより短い治療期間により良いアドヒアランスをもたらすなど投与に便利またはより侵襲的である)。 例えばHIVの治療では、研究者は既存のレジメンと同様の効果を示すことができる、より複雑でなく、より毒性の低い抗レトロウイルスレジメンを求めています

非劣性は、優越性の有意でない検定で証明することはできないのです。 非劣性試験の伝統的な戦略は、非劣性マージン(M)を選択し、治療差が非劣性マージン以内(すなわち、<M)であることを示すことができれば、非劣性を主張することができるというものである。 帰無仮説と対立仮説は、H0: βT,active control ≥M と HA: βT,active control <M で、βT,active control は active controlに対する介入療法(T)の効果である。 標準的な解析は、群間差の信頼区間を構築し、信頼区間全体が非劣性マージンの範囲内であるかどうかに注目することである。 例えば、主要評価項目が二値(例えば、反応対無反応)の場合、反応率の差(介入-活性コントロール)に対する信頼区間を構築することができる。 信頼区間の下限が-Mより大きければ、有意差はないと判断され、非劣性を主張できる。 図2において、信頼区間A-Fは非劣性試験の結果のシナリオの可能性を示している。 信頼区間の中心や幅はそれぞれ異なる。 もし、試験が優越性を評価するように設計されている場合、シナリオAとDは帰無仮説を棄却できない結果となる(信頼区間がゼロを除外しないため)。 非劣性試験としてデザインされた場合、シナリオA、B、Cでは劣性の帰無仮説が棄却されないが、シナリオD、E、Fでは区間の下限が>-Mなので非劣性が主張されることになる。 シナリオEでは、優越性試験で劣勢が、非劣性試験で非劣勢が結論づけられ、混乱が生じることがある。 この場合、統計的有意性(信頼区間が0を除くこと)と臨床的妥当性(差がM未満であること)の区別が強調される。 シナリオAは、信頼区間が広すぎるため、優越性、劣等性、非劣等性のいずれも主張できない場合である。 これは、サンプルサイズが小さいか、ばらつきが大きいことが原因である。

 画像やイラストなどを保持する外部ファイルです。 オブジェクト名はnihms275040f2.jpg

Noninferiority design(非劣性デザイン)。 P1は新しい治療法の有効性である。 P2は対照群の有効性。 -Mは非劣性マージン。

非劣性臨床試験は臨床研究において非常に一般的になっている。 非劣性試験は、非劣性を主張する「ポジティブ」なものと、非劣性を主張できない「ネガティブ」なものとがある。 PROFESS試験は、time-to-eventエンドポイントを用いたネガティブな非劣性試験であった。 この試験では、アスピリン+徐放性ジピリダモールは、脳卒中予防においてクロピドグレルに対して非劣性でないと結論づけられた。 主要評価項目は脳卒中の再発で、非劣性マージンは相対リスクの差7.5%に設定された。 ハザード比の95%CIは(0.92, 1.11)であった。 CIの上限が1.075より大きいため、非劣性が結論づけられなかった。 一方、新規に診断されたてんかんの治療法を評価する臨床試験において、ケプラはカルバトロールに対して非劣性を示しました。 主要評価項目は6ヶ月間の発作からの解放で,非劣性マージンは15%に設定された。

リスク差の95%CIは(-7.8%、8.2%)であり,非劣性が結論付けられた。 (Brodie et al 2007)

非劣性試験のデザインに関連する2つの重要な仮定は、不変性とアッセイ感度です。

非劣性試験では、過去の試験で有効性が示されている(例えば、プラセボより優れている)ので、活性対照が選択されます。 不変性の仮定は,過去の試験におけるプラセボに対するコントロールの効果は,プラセボ群を含めた場合,現在の試験における効果と同じになるというものである。 しかし、歴史的な試験と現在の試験で、試験方法に違い(例えば、治療投与、エンドポイント、集団の違い)がある場合、このようなことはありえない。 この仮定は、プラセボ群のない現在の試験では検証できない。 抵抗性の発現は不変性の仮定に対する一つの脅威である

プラセボに対する活性対照の効果の一部の保持を評価できるように、試験参加者、エンドポイント、その他の重要なデザイン特徴は、プラセボに対する活性対照の効果を実証するための試験で使用したものと同様であるべきである。 非劣性試験と歴史的試験における活性対照の有効性を比較することで、不変性の仮定を間接的に評価することができる

非劣性試験は、非劣性マージンが正当化できるように活性対照の効果量を定義した十分な証拠がある場合に適切である。 積極的対照の効果量と非劣性マージンを支持する証拠の包括的な統合を構築すべきである。 これらの理由から、一部の適応症では非劣性デザインを支持しないデータが多い。

「Assay sensitivity」は非劣性試験のデザインにおけるもう一つの重要な仮定である。 Assay sensitivityの仮定は、治療法間の差が実際に存在する場合、それを検出できるような試験デザインであることを意味する。 治療効果を測定する機器の感度が十分でなければ、機器の感度の低さによって治療効果が同じになり、非劣性を誤って結論付けてしまう可能性があります。 選択されたエンドポイント、測定方法、そして試験の実施と完全性は、測定器の感度に影響を与える可能性があります。 規制当局の承認は、必ずしも治療法が活性対照として使用できることを意味するものではない。 理想的には、活性対照は以下のような臨床的有効性を有していなければならない。 (1) 十分な大きさがあり、(2) 非劣性試験が実施される関連環境において正確に推定され、(3) できれば複数の試験で定量化されていること。 プラセボに対する活性コントロールの効果の大きさは、非劣性マージンの選択に用いられるため、プラセボに対する優越性は、信頼性をもって確立され、測定されなければならない。 最近、不変の仮定に反する(すなわち、活性対照の効果が時間とともに変化する)、あるいはプラセボに対する効果が証明されていない活性対照を用いた非劣性試験の展開が懸念されている。 研究チームはしばしば、プラセボ対照試験は実行不可能であると主張する。 (1)他の介入方法があるためプラセボは非倫理的、(2)患者がプラセボ対照試験に登録したがらない、(3)施設審査委員会がこれらの状況でのプラセボ使用の倫理に疑問を呈する。

非劣性試験で活性対照を選ぶ際には、活性対照の有効性をどのようにして立証したかを考慮しなければなりません(例えば他の活性対照に対して非劣性を立証したか、プラセボに対して優位であるか等々)。 もし、非劣性試験で有効性が示されたのであれば、バイオクリープの懸念を考慮しなければならない。 バイオクリープとは、非劣性試験で有効性が示されたわずかに劣る治療法(しかし非劣性の範囲内)が、次の世代の非劣性試験で活性対照となる傾向のことである。 非劣性試験で有効性が示された活性対照を用いた非劣性試験が何世代も繰り返されると、最終的にプラセボより優れていない治療法の非劣性が証明される可能性があります。 論理的には、非劣性は推移的なものではない:AがBに対して非劣性であり、BがCに対して非劣性である場合、AがCに対して非劣性であるとは必ずしもならない。これらの理由から、非劣性試験は一般に、利用できる最善の活性対照を選択すべきである。 一般に、非劣性マージンの選択は試験のデザイン段階で行われ、サンプルサイズを決定するのに利用される。 非劣性試験における非劣性マージンの定義は文脈依存的であり、試験結果の解釈に直接的な役割を果たす。 非劣性マージンの選択は主観的ではあるが構造的であり、統計的推論と臨床的判断の組み合わせが必要である。 概念的には、非劣性マージンを「臨床的に無関係な最大治療差」または「介入の利点を得るために犠牲にしてもよい最大有効差」と捉えることもできる。 この概念はしばしば統計学者と臨床医の間の相互作用を必要とする。

非劣性試験の間接的な目標の一つは介入がプラセボより優れていることを示すことなので、プラセボに対する活性コントロールの効果の一部を保持する必要がある(しばしば「効果の一部を保存する」と呼ばれる)。 したがって、非劣性マージンはプラセボに対する積極的コントロールの効果量よりも小さくなるように選択されなければならない。 研究者は、非劣性マージンを定義するのに役立つように、プラセボに対する活性コントロールの優越性を示した過去のデータを見直す必要があります。 研究者は、推定値の試験内および試験間の変動も考慮する必要があります。 非劣性マージンは研究力とは無関係に選択されるのが理想であるが、非劣性マージンの選択は研究力に劇的に影響するため、現実的な限界が生じる可能性がある

効果の推定値を維持する戦略の一つは、非劣性マージンを推定される活性コントロール対プラセボ効果の特定の割合(例えば、50%)とすることである。 あるいは「95%-95%信頼区間法」を用いることも可能である。 この戦略では、非劣性マージンは、活性コントロールの対プラセボ効果に対する95%信頼区間の下限値に設定される。 非劣性マージンの選択を誤ると、非劣性試験が失敗する可能性がある。 SPORTIF V試験では、心房細動患者の脳卒中予防のために、ximelegatranがwar-farin(有効対照薬)と比較された。 ワルファリンのイベント発生率は1.2%であり、過去のデータから非劣性マージンは2%(イベント発生率の絶対差)に設定された。 ワルファリン群のイベント発生率が低いため、試験でイベント発生率が2倍になることを否定できなくても非劣性が結論づけられたのです。 これらの理由から,非劣性マージンの選択には,統計的な考察だけでなく,臨床的な関連性の考察も取り入れるべきである

当然の疑問として,非劣性マージンを試験開始後に変更できるかどうかがある。 一般に、非劣性マージンの減少に関する懸念はほとんどない。 しかし、非劣性マージンを増やすことは、適切に正当化されない限り(すなわち、試験から独立した外部データに基づいて)、操作とみなされる可能性がある。 必要なサンプルサイズは、非劣性マージンが小さくなるほど大きくなる。 一般に調整済み信頼区間は未調整信頼区間より狭いため,層別化が有効である。 研究者は、非劣性試験の検出力を、intent-to-treat(ITT)解析と同様に、per protocol解析にする必要がある(後述)。 また、研究者は、タイプIエラー(すなわち、非劣性を誤って主張すること)とタイプIIエラー(すなわち、非劣性を誤って主張しないこと)のコストを比較検討する必要がある。 非劣性試験のサイズを決定する一つのアプローチは、推定という観点から試験を見ることである。 この戦略は、治療間の差を適切な精度(信頼区間の幅で測定)で推定することである。 そして、治療間の差の信頼区間の幅が許容できるような試験サイズを設定するのである。 一般に、中間解析中に非劣性で試験を中止することを示唆するには、圧倒的な証拠が必要である。 また,非劣性が示された試験を中止する倫理的要請がない場合もある(優越性が示された場合,劣った群への無作為化が非倫理的と見なされる可能性があるため,試験を中止する倫理的要請がある場合がある優越性試験とは対照的)。 さらに、中間時点で非劣性が示されたとしても、試験の継続により優越性が示されるかどうかを評価するために、試験を継続することが望ましい場合がある。 非劣性試験を無益性(すなわち、非劣性を示すことができない)のために中止することは珍しいことではありません。 予測区間プロットでエラー率をコントロールするために、反復信頼区間を使用する(Evans et al 2007a; 非劣性試験のデザインおよび分析に対する従来のアプローチは、非劣性試験の2つの異なる副目的を区別していないことを指摘し、最近批評されている。 (1)介入が活性対照に対して非劣性であることを証明すること、(2)過去のエビデンスを考慮して介入がプラセボより優れていることを証明することである。 非劣性試験のデザインは、2つの別々の仮説を検証するよう計画することで達成できる。 特定の試験は、2つの副目的のうち1つだけを達成することができる。 介入がプラセボより優れているが、活性コントロールに対する非劣性を証明できない場合、活性コントロールが禁忌または使用できない患者に対して介入の使用が示されるかもしれない。 対照的に、介入は活性コントロールに対して非劣性を示すが、プラセボに対して優越性を示さないこともある。 これは、積極的コントロールの有効性がわずかである場合に起こりうる。 最近、2つの副目的のうち2番目(すなわち、プラセボに対する優越性の実証)が規制環境における関心の高い目的であるという主張がなされている。 業界団体は、新しい治療法の規制当局による承認は、必ずしも活性対照に対する非劣性ではなく、プラセボに対する優越性の証拠(臨床的に意味のある利益の証明)に基づくべきであると主張しています。 この見解(しばしば「合成法」と呼ばれる)の支持者は、この立場を支持するために、非劣性試験に対する従来のアプローチとのいくつかのジレンマと矛盾を提起している。 第一に、介入は積極的対照よりも優れているように見えるが、効果維持の条件を満たさない可能性がある。 第二に、異なる活性対照を用いた二つの試験で成功の基準が異なることである。 第三に、介入が活性コントロールより優れていることが示された場合、その活性コントロールは市場から撤去されるべきかという自然な疑問が生じる。 基本的な議論は、必要な有効性の程度はデザイン(優越性と非劣性)に依存せず、プラセボに対する優越性が規制当局の承認基準であるということである。 そのため、合成法の支持者は、プラセボに対する介入の優越性が真の目的であるため、「非劣性試験」という用語は不適切であると主張している

科学的に魅力的な代替デザインの一つは、介入、活性対照、プラセボ群からなる3群試験を実施することである。 このデザインは、活性対照の有効性が変化した、不安定である、あるいは疑問である場合に特に魅力的である。 このデザインでは、プラセボに対する非劣性と優越性を直接評価でき、非劣性マージンの試験内検証も可能である。

非劣性マージンの選択は,優越性試験でしばしば定義される最小臨床関連差とは異なり,非劣性試験の解釈において直接的な役割を担っている。 したがって、非劣性マージンの正当性の根拠を解析で概説する必要がある。 非劣性試験の解析では、直接比較ができない場合に、プラセボに対する介入の効果を推論するために、今回の試験以外の情報も利用する。 したがって、非劣性試験における活性対照の反応率、アドヒアランスなどを、活性対照とプラセボを比較し、活性対照の有効性の証拠を提供した過去の試験と比較することが推奨される。 もし活性コントロールが過去の試験と異なる効果を示した場合、事前に定義された非劣性マージンの妥当性が疑われ、結果の解釈が困難になります。

分析の一般的なアプローチは、2辺信頼区間を計算することです(p値は一般的に適切ではありません)。 よくある質問は、非劣性の1辺の性質を考えると、1辺0.05の信頼区間が許容されるかどうかである。しかし、有意性検定とその後の推定の間の一貫性のために、2辺信頼区間が一般的に適切である。 両側95%信頼区間は、優越性試験で受け入れられている方法と比較して、結論を導き出すための証拠レベルを下げることになることに注意する必要がある。 そのため,優越性試験においては,一般的にITT解析が主要解析とされ,タイプIエラー率の防止に役立っている。 非劣性試験の目的は非劣性または類似性を示すことであるため、真の治療差を過小評価すると非劣性に偏り、「偽陽性」(すなわち、非劣性を誤って主張する)エラーレートが上昇する可能性がある。 したがって、非劣性試験において、ITTは必ずしも保守的とはいえない。 これらの理由から、非劣性試験においては、ITT解析とper protocol解析(すなわち、プロトコールを遵守した試験参加者に基づく解析)が、しばしば共同一次解析として考慮される。 試験結果の頑健性を評価するために、両方の解析(そしておそらく追加の感度解析)を行うことが重要である。 ITTでは効果の推定値が希釈されることが多いため、プロトコルごとの解析では効果サイズが大きくなることが多いが、ITTよりも少ない試験参加者に基づいているため信頼区間が広くなることが多い

非劣性試験が行われ、活性コントロールに対する介入の非劣性が示された場合、より強い優位性の主張ができるかということが当然の疑問となる。 言い換えれば、非劣性試験から優越性試験への切り替えはどのような影響を及ぼすのだろうか。 逆に、優越性試験を実施し、有意な群間差が観察されなかった場合、より弱い非劣性を主張することが可能かどうかが自然な疑問となる。 優越性試験から非劣性試験への切り替えは可能か<420><7149>一般に、非劣性を示した後に優越性の評価を行うことは問題ないと考えられている。 閉じた試験の原則から、多重度調整は必要ない。 非劣性解析ではintent-to-treat解析とper protocol解析の両方が重要であるが,優越性評価ではintent-to-treat解析が最も重要な解析となる。 優越性を示せなかった後に、非劣性を主張することはより困難である。 考慮すべきいくつかの問題がある。 まず、非劣性マージンが事前に指定されているかどうかが重要な考慮点である。 非劣性マージンをその場しのぎで設定することは正当化が難しく、操作と受け取られる可能性がある。 非劣性マージンの選択は、試験データから独立している必要があり(すなわち、外部情報に基づいている)、データを収集し、盲検化を解除した後にそれを証明することは困難である。 第二に、対照群は非劣性試験に適した対照群であるか(例えば、プラセボに対する優越性を示し、正確に測定したか)。 第三に、対照群の有効性は過去の対プラセボ試験で示されたものと同様であったか(不変性の仮定)。 第四に、intent-to-treat解析とper protocol解析が同様に重要になる。 第五に、試験の質が高くなければならない(アドヒアランスが良好で、脱落者が少ないこと)。 420>

非劣性試験の報告は、医学文献上では最適とは言えないものであった。 Annals of Internal Medicine誌のGreeneと共同執筆者は、非劣性を主張する88の研究をレビューしたが、これらの研究の67%が有意でない優越性検定に基づいて非劣性を主張していることを指摘した。 (Greene et al 2000)さらに、非劣性マージンを事前に指定している研究は23%のみであった。 Piaggioと共著者は、Journal of the American Medical Associationにおいて、非劣性試験の適切な報告の概要を示すCONSORTステートメントを拡張して発表している。 (Piaggio et al 2006)非劣性試験に関するFDAガイダンス文書は現在作成中である。

コメントを残す

メールアドレスが公開されることはありません。