Structuren van klinische proeven | Online Stream

2.5 Niet-inferioriteitstests

De grondgedachte achter niet-inferioriteitstests is dat voor een juiste evaluatie van een interventie een vergelijking met een controlegroep noodzakelijk is om de resultaten van een interventie-arm in de juiste context te plaatsen. Voor de beoogde medische indicatie is randomisatie naar een placebo echter onethisch vanwege de beschikbaarheid van een bewezen effectieve therapie. Bij noninferioriteitstests wordt een bestaande effectieve therapie geselecteerd als de “actieve” controlegroep. Om deze reden worden noninferioriteitsproeven ook wel “actief gecontroleerde proeven” genoemd.

Het doel van een noninferioriteitsproef is anders dan dat van een placebogecontroleerd onderzoek. Niet langer hoeft te worden aangetoond dat de interventie superieur is aan de controle, zoals bij placebogecontroleerd onderzoek, maar in plaats daarvan is het wenselijk aan te tonen dat de interventie “ten minste even goed is als” of “niet slechter is dan” (d.w.z. niet inferieur is aan) de actieve controle. Hopelijk is de interventie op andere manieren beter dan de actieve controle (bijvoorbeeld minder duur, beter veiligheidsprofiel, betere kwaliteit van leven, ander resistentieprofiel, of handiger of minder invasief toe te dienen, zoals minder pillen nodig of een kortere behandelingsduur, waardoor betere therapietrouw ontstaat). Bijvoorbeeld bij de behandeling van HIV zoeken onderzoekers naar minder gecompliceerde of minder toxische antiretrovirale regimes die een vergelijkbare werkzaamheid kunnen vertonen als bestaande regimes.

Noninferioriteit kan niet worden aangetoond met een niet-significante superioriteitstest. De traditionele strategie van een noninferioriteitstest bestaat erin een noninferioriteitsmarge (M) te kiezen en indien kan worden aangetoond dat de behandelingsverschillen binnen de noninferioriteitsmarge liggen (d.w.z. <M), kan noninferioriteit worden geclaimd. De nulhypothese en de alternatieve hypothese zijn H0: βT,actieve controle ≥M en HA: βT,actieve controle <M, waarbij βT,actieve controle het effect is van de interventietherapie (T) ten opzichte van de actieve controle. De standaardanalyse bestaat erin een betrouwbaarheidsinterval voor het verschil tussen de armen te construeren en op te merken of het volledige betrouwbaarheidsinterval binnen de grenzen van de noninferioriteitsmarge ligt. Indien het primaire eindpunt bijvoorbeeld binair is (bv. respons vs. geen respons), kan een betrouwbaarheidsinterval voor het verschil in responspercentages (interventie min actieve controle) worden geconstrueerd. Indien de ondergrens van het betrouwbaarheidsinterval groter is dan -M, kunnen belangrijke verschillen met redelijke zekerheid worden uitgesloten en kan noninferioriteit worden geclaimd. In figuur 2 stellen de betrouwbaarheidsintervallen A-F mogelijke scenario’s voor de uitkomst van niet-inferioriteitstests voor. De intervallen hebben verschillende middelpunten en breedten. Indien de proef is opgezet om superioriteit te evalueren, kan de nulhypothese in scenario’s A en D niet worden verworpen (aangezien het betrouwbaarheidsinterval nul niet uitsluit). Inferioriteit wordt geconcludeerd in scenario’s B, C en E, terwijl superioriteit wordt geconcludeerd in scenario F. Als de proef is opgezet als een proef zonder inferioriteit, kan de nulhypothese van inferioriteit niet worden verworpen in scenario’s A, B en C, maar wordt noninferioriteit geclaimd in scenario’s D, E en F, aangezien de ondergrens van het interval >-M is. Enige verwarring is vaak het gevolg van scenario E, waarin inferioriteit wordt geconcludeerd uit een superioriteitsproef, maar noninferioriteit wordt geconcludeerd uit een noninferioriteitsproef. In dit geval wordt gewezen op het onderscheid tussen statistische significantie (d.w.z. het betrouwbaarheidsinterval sluit 0 uit) en klinische relevantie (d.w.z. de verschillen zijn kleiner dan M). Scenario A is een geval waarin noch superioriteit, noch inferioriteit, noch noninferioriteit kan worden geclaimd omdat het betrouwbaarheidsinterval te breed is. Dit kan te wijten zijn aan een kleine steekproefgrootte of een grote variatie.

Een extern bestand dat een afbeelding, illustratie, enz. bevat. Objectnaam is nihms275040f2.jpg

Noninferioriteitsopzet. P1 is de werkzaamheid van de nieuwe therapie. P2 is de werkzaamheid van de controlegroep. -M is de noninferioriteitsmarge.

Noninferioriteitstests zijn in het klinisch onderzoek zeer gebruikelijk geworden. Non-inferioriteitsonderzoek kan “positief” zijn, hetgeen leidt tot een claim van noninferioriteit, of “negatief”, hetgeen leidt tot het niet kunnen maken van een claim van non-inferioriteit. De PROFESS-studie was een negatieve noninferioriteitsstudie met een eindpunt “time-to-event”. De conclusie van de studie was dat aspirine plus dipyridamole met verlengde afgifte niet noninferieur was aan clopidogrel voor de preventie van beroerten. Het primaire eindpunt was recidief beroerte en de non-inferioriteitsmarge werd vastgesteld op een verschil in relatief risico van 7,5%. De 95% CI voor de hazard ratio was (0,92, 1,11). Aangezien de bovengrens van het CI groter was dan 1,075, kon noninferioriteit niet worden geconcludeerd. In een klinische studie waarin behandelingen voor nieuw gediagnosticeerde epilepsie werden geëvalueerd, werd daarentegen aangetoond dat Keppra niet inferieur was aan Carbatrol. Het primaire eindpunt was 6 maanden vrij zijn van aanvallen en een non-inferioriteitsmarge werd vastgesteld op een verschil van 15%.

De 95% CI voor het risicoverschil was (-7,8%, 8,2%) en dus werd non-inferioriteit geconcludeerd. (Brodie et al 2007)

Twee belangrijke veronderstellingen bij de opzet van noninferioriteitstrials zijn constantheid en assaygevoeligheid.

In noninferioriteitstrials wordt een actieve controle geselecteerd omdat deze in een historische trial werkzaam is gebleken (bijv. superieur aan placebo). De constantheidsveronderstelling houdt in dat het effect van de actieve controle ten opzichte van placebo in het historische onderzoek hetzelfde zou zijn als het effect in het huidige onderzoek indien een placebogroep werd opgenomen. Het is mogelijk dat dit niet het geval is als er verschillen zijn in de uitvoering van het onderzoek (bv. verschillen in de toediening van de behandeling, in de eindpunten of in de populatie) tussen het historische en het huidige onderzoek. Deze veronderstelling kan niet worden getoetst in de huidige proef zonder placebogroep. De ontwikkeling van resistentie is één bedreiging voor de constantheidsveronderstelling.

Om een evaluatie van het behoud van een deel van het effect van de actieve controle ten opzichte van placebo mogelijk te maken, moeten de deelnemers aan het onderzoek, de eindpunten en andere belangrijke ontwerpkenmerken vergelijkbaar zijn met die welke zijn gebruikt in de trials om de effectiviteit van de actieve controle ten opzichte van placebo aan te tonen. Men kan dan indirect de constantheidsveronderstelling beoordelen door de effectiviteit van de actieve controle in het noninferioriteitsonderzoek en het historische onderzoek te vergelijken.

Non-inferioriteitsonderzoeken zijn geschikt wanneer er voldoende bewijs is voor een bepaalde effectgrootte voor de actieve controle, zodat een noninferioriteitsmarge kan worden gerechtvaardigd. Er moet een uitgebreide synthese worden gemaakt van het bewijsmateriaal dat de effectgrootte van de actieve controle en de noninferioriteitsmarge ondersteunt. Om deze redenen ondersteunen de gegevens vaak niet een noninferioriteitsontwerp voor sommige indicaties.

“Assay sensitivity” is een andere belangrijke veronderstelling bij het ontwerp van noninferioriteitstrials. De veronderstelling van “assay sensitivity” houdt in dat het onderzoek zo wordt opgezet dat het verschillen tussen therapieën kan detecteren als die inderdaad bestaan. Als het instrument waarmee de respons op de behandeling wordt gemeten niet gevoelig genoeg is om verschillen te detecteren, zullen de therapieën door de ongevoeligheid van het instrument een vergelijkbare respons vertonen, waardoor mogelijk ten onrechte wordt geconcludeerd dat er geen sprake is van inferioriteit. De eindpunten die worden geselecteerd, de manier waarop ze worden gemeten en de uitvoering en integriteit van het onderzoek kunnen de gevoeligheid van de assay beïnvloeden.

De actieve controle in een noninferioriteitsonderzoek moet zorgvuldig worden geselecteerd. Goedkeuring door de regelgever impliceert niet noodzakelijkerwijs dat een therapie als actieve controle kan worden gebruikt. Idealiter heeft de actieve controle een klinische werkzaamheid die: (1) van substantiële omvang is, (2) nauwkeurig wordt geraamd in de relevante setting waarin de noninferioriteitstrial wordt uitgevoerd, en (3) bij voorkeur in meerdere trials wordt gekwantificeerd. Aangezien de effectgrootte van de actieve controle ten opzichte van placebo wordt gebruikt als richtsnoer voor de selectie van de noninferioriteitsmarge, moet de superioriteit ten opzichte van placebo op betrouwbare wijze worden vastgesteld en gemeten. Er moet zekerheid zijn dat de actieve controle superieur zou zijn aan placebo indien in de proef een placebo zou worden gebruikt.

De laatste tijd bestaat er bezorgdheid over de ontwikkeling van noninferioriteitsstudies waarbij actieve controles worden gebruikt die de constantheidsveronderstelling schenden (d.w.z. de werkzaamheid van de actieve controle is in de loop van de tijd veranderd) of waarvan de werkzaamheid ten opzichte van placebo niet is bewezen. Onderzoekteams beweren vaak dat placebogecontroleerde studies niet haalbaar zijn omdat (1) placebo’s onethisch zijn vanwege het bestaan van andere interventies, (2) patiënten niet bereid zijn zich in te schrijven voor placebogecontroleerde proeven, en (3) Institutional Review Boards vraagtekens zetten bij de ethiek van het gebruik van placebo’s in deze situaties.

Bij het selecteren van de actieve controle voor een noninferioriteitsonderzoek, moet men overwegen hoe de werkzaamheid van de actieve controle is vastgesteld (bijv. door noninferioriteit ten opzichte van een andere actieve controle aan te tonen versus door superioriteit ten opzichte van placebo aan te tonen). Indien de werkzaamheid van de actieve controle is aangetoond door middel van een noninferioriteitsproef, moet men rekening houden met de bezorgdheid over biocreep. Biocreep is de tendens dat een iets inferieure therapie (maar binnen de marge van noninferioriteit) waarvan de werkzaamheid is aangetoond in een noninferioriteitsproef, de actieve controle wordt in de volgende generatie noninferioriteitsproeven. Meerdere generaties noninferioriteitstests waarbij actieve controles worden gebruikt waarvan de werkzaamheid is aangetoond via noninferioriteitstests, kunnen uiteindelijk resulteren in het aantonen van de noninferioriteit van een therapie die niet beter is dan placebo. Logisch gezien is noninferioriteit niet transitief: als A niet inferieur is aan B, en B is niet inferieur aan C, dan volgt daaruit niet noodzakelijkerwijs dat A niet inferieur is aan C. Om deze redenen moeten bij noninferioriteitsproeven in het algemeen de beste beschikbare actieve controles worden gekozen.

De selectie van de noninferioriteitsmarge bij noninferioriteitsproeven is een ingewikkelde kwestie die tot veel discussie heeft geleid. In het algemeen wordt de selectie van de noninferioriteitsmarge gedaan in de ontwerpfase van het onderzoek en wordt zij gebruikt om de steekproefgrootte te helpen bepalen. Het bepalen van de noninferioriteitsdrempel bij noninferioriteitsproeven is afhankelijk van de context en speelt een directe rol bij de interpretatie van de resultaten van het onderzoek. De keuze van de noninferioriteitsmarge is subjectief maar gestructureerd en vereist een combinatie van statistische redenering en klinisch oordeel. Conceptueel kan men de noninferioriteitsmarge zien als het “maximale behandelingsverschil dat klinisch irrelevant is” of het “grootste verschil in werkzaamheid dat aanvaardbaar is om op te offeren om de voordelen van de interventie te verkrijgen”. Dit concept vereist vaak interacties tussen statistici en clinici.

Omdat een indirect doel van een noninferioriteitsonderzoek is aan te tonen dat de interventie superieur is aan placebo, moet een deel van het effect van de actieve controle ten opzichte van placebo behouden blijven (vaak “behoud van een fractie van het effect” genoemd). De non-inferioriteitsmarge moet dus zo worden gekozen dat zij kleiner is dan de effectgrootte van de actieve controle ten opzichte van placebo. Onderzoekers moeten de historische gegevens die de superioriteit van de actieve controle ten opzichte van placebo aantoonden, bestuderen om de noninferioriteitsmarge te helpen bepalen. Onderzoekers moeten ook rekening houden met de variabiliteit van de schattingen binnen en tussen de proeven. Idealiter zou de noninferioriteitsmarge onafhankelijk van de studiekracht moeten worden gekozen, maar er kunnen praktische beperkingen optreden, aangezien de keuze van de noninferioriteitsmarge de studiekracht drastisch beïnvloedt.

Een strategie om de schatting van het effect te behouden, is de noninferioriteitsmarge vast te stellen op een specifiek percentage (bijv. 50%) van het geschatte effect van de actieve controle ten opzichte van placebo. Als alternatief kan de “95%-95%-betrouwbaarheidsintervalmethode” worden gebruikt. Bij deze strategie wordt de noninferioriteitsmarge vastgesteld op de ondergrens van het 95%-betrouwbaarheidsinterval voor het effect van de actieve controle ten opzichte van placebo. Een slechte keuze van een non-inferioriteitsmarge kan resulteren in een mislukte non-inferioriteitsproef. In de SPORTIF V-studie werd ximelegatran vergeleken met warfarine (actieve controle) voor de preventie van beroerten bij patiënten met atriumfibrillatie. Het voorvalpercentage voor warfarine bedroeg 1,2% en de non-inferioriteitsmarge werd vastgesteld op 2% (absoluut verschil in voorvalpercentages) op basis van historische gegevens. Aangezien het aantal voorvallen in de warfarine-arm laag was, kon worden geconcludeerd dat er geen sprake was van inferioriteit, ook al kon in de proef een verdubbeling van het aantal voorvallen niet worden uitgesloten. Om deze redenen moeten bij de keuze van de noninferioriteitsmarge zowel statistische overwegingen als overwegingen van klinische relevantie in aanmerking worden genomen.

Een voor de hand liggende vraag is of een noninferioriteitsmarge kan worden gewijzigd na het begin van de proef. In het algemeen is er weinig bezorgdheid over een verlaging van de noninferioriteitsmarge. Het verhogen van de noninferioriteitsmarge kan echter worden gezien als manipulatie, tenzij dit naar behoren wordt gemotiveerd (d.w.z. gebaseerd op externe gegevens die onafhankelijk zijn van het onderzoek).

De steekproefgrootte hangt af van de keuze van de noninferioriteitsmarge en andere parameters. De vereiste steekproefomvang neemt toe naarmate de noninferioriteitsmarge kleiner wordt. Stratificatie kan helpen aangezien aangepaste betrouwbaarheidsintervallen over het algemeen smaller zijn dan niet-aangepaste betrouwbaarheidsintervallen. Onderzoekers moeten de power van noninferioriteitstests bepalen voor zowel een per-protocolanalyse als een intent-to-treat (ITT)-analyse, gezien het belang van beide analyses (zie later). Onderzoekers moeten ook de kosten afwegen van Type I-fouten (d.w.z. ten onrechte noninferioriteit claimen) en Type II-fouten (d.w.z. ten onrechte geen noninferioriteit claimen). Eén benadering van de omvang van een noninferioriteitsproef is de proef te bekijken vanuit een schattingsperspectief. De strategie bestaat erin het verschil tussen de behandelingen met de nodige nauwkeurigheid te schatten (gemeten aan de hand van de breedte van een betrouwbaarheidsinterval). Vervolgens moet de studie zo groot zijn dat de breedte van het betrouwbaarheidsinterval voor het verschil tussen de behandelingen aanvaardbaar is.

Tussentijdse analyses van noninferioriteitstrials kunnen gecompliceerd zijn. In het algemeen is er een overweldigend bewijs nodig om te suggereren een onderzoek naar noninferioriteit tijdens tussentijdse analyses te stoppen. Ook is het mogelijk dat er geen ethische verplichting is om een onderzoek te stoppen dat noninferioriteit heeft aangetoond (in tegenstelling tot superioriteitsonderzoeken waarbij, indien superioriteit is aangetoond, er ethische verplichtingen kunnen zijn om het onderzoek te stoppen aangezien randomisatie naar een inferieure arm als onethisch kan worden beschouwd). Bovendien kan het, zelfs indien op een tussentijds tijdstip niet-inferioriteit is aangetoond, wenselijk zijn het onderzoek voort te zetten om na te gaan of superioriteit kan worden aangetoond door voortzetting van het onderzoek. Het is niet ongebruikelijk dat een niet-inferioriteitsonderzoek wordt stopgezet omdat het zinloos is (d.w.z. dat niet kan worden aangetoond dat het niet inferieur is). Gebruik van herhaalde betrouwbaarheidsintervallen om foutenpercentages met voorspelde intervalplots te controleren (Evans et al 2007a; Li et al 2009) kunnen gegevenscontrolecommissies helpen bij het nemen van tussentijdse beslissingen.

De traditionele benaderingen van de opzet en analyses van noninferioriteitstrials zijn onlangs bekritiseerd door op te merken dat er geen onderscheid wordt gemaakt tussen de twee verschillende subdoelstellingen van noninferioriteitstrials: (1) aantonen dat de interventie niet inferieur is aan de actieve controle, en (2) aantonen dat de interventie superieur is aan placebo, rekening houdend met historisch bewijsmateriaal. De opzet van een noninferioriteitsproef kan worden verwezenlijkt door twee afzonderlijke hypothesen te testen. Het is mogelijk dat met een bepaalde proef slechts één van de twee subdoelstellingen wordt bereikt. Indien wordt aangetoond dat de interventie superieur is aan placebo, maar niet dat deze noninferieur is aan de actieve controle, kan het gebruik van de interventie aangewezen zijn voor patiënten voor wie de actieve controle gecontra-indiceerd of niet beschikbaar is. Daarentegen kan worden aangetoond dat de interventie niet inferieur is aan de actieve controle, maar niet superieur aan placebo. Dit kan het geval zijn wanneer de werkzaamheid van de actieve controle gering is. Onlangs is beweerd dat de tweede van de twee subdoelstellingen (d.w.z. het aantonen van superioriteit ten opzichte van placebo) de doelstelling is die in de regelgeving van belang is. Groepen uit de industrie hebben aangevoerd dat de wettelijke goedkeuring van nieuwe therapieën gebaseerd zou moeten zijn op het bewijs van superioriteit ten opzichte van placebo (het aantonen van klinisch significante voordelen) en niet noodzakelijkerwijs op non-inferioriteit ten opzichte van een actieve controle. Voorstanders van dit perspectief (vaak de “synthesemethode” genoemd) voeren ter ondersteuning van dit standpunt verschillende dilemma’s en inconsistenties aan met traditionele benaderingen van non-inferioriteitstests. Ten eerste kan de interventie er beter uitzien dan de actieve controle, maar niet voldoen aan de voorwaarde van behoud van effect. Ten tweede gelden voor twee proeven met verschillende actieve controles verschillende normen voor succes. Ten derde, als de interventie superieur blijkt te zijn aan een actieve controle, rijst natuurlijk de vraag of de actieve controle van de markt moet worden gehaald. Het basisargument is dat de vereiste mate van werkzaamheid onafhankelijk moet zijn van de opzet (superioriteit vs. noninferioriteit) en dat superioriteit ten opzichte van placebo de norm is voor goedkeuring door de regelgevende instanties. Voorstanders van de synthesemethode stellen dus dat de terminologie van “noninferioriteitsonderzoek” niet op zijn plaats is, omdat de superioriteit van de interventie ten opzichte van placebo het werkelijke doel is.

Een wetenschappelijk aantrekkelijke alternatieve opzet is een drie-armig onderzoek bestaande uit de interventie, de actieve controle, en een placebo-arm. Deze opzet is bijzonder aantrekkelijk wanneer de werkzaamheid van de actieve controle is veranderd, aan verandering onderhevig is of twijfelachtig is. Met deze opzet kunnen noninferioriteit en superioriteit ten opzichte van placebo rechtstreeks worden beoordeeld en kan de noninferioriteitsmarge binnen de proef worden gevalideerd. Helaas wordt deze opzet niet vaak toegepast vanwege de bezorgdheid over het onethische karakter van de placebo-arm in sommige settings.

De keuze van de noninferioriteitsmarge speelt een directe rol bij de interpretatie van het noninferioriteitsonderzoek, in tegenstelling tot het minimale klinisch relevante verschil dat vaak wordt gedefinieerd in superioriteitsonderzoeken. Daarom moet de rechtvaardiging voor de noninferioriteitsmarge in de analyses worden uiteengezet. Bij de analyse van noninferioriteitstests wordt ook gebruik gemaakt van informatie buiten de huidige studie om het effect van de interventie ten opzichte van placebo af te leiden bij ontstentenis van een directe vergelijking. Daarom wordt aanbevolen om een vergelijking van het responspercentage, de therapietrouw enz. van de actieve controle in de noninferioriteitstrial te vergelijken met historische trials waarin de actieve controle werd vergeleken met placebo en die bewijs leverden voor de werkzaamheid van de actieve controle. Indien de actieve controle een andere werkzaamheid vertoont dan in eerdere proeven, kan de geldigheid van de vooraf bepaalde noninferioriteitsmarge verdacht zijn, en zal de interpretatie van de resultaten een uitdaging vormen.

De algemene aanpak van de analyse is het berekenen van een 2-zijdig betrouwbaarheidsinterval (een p-waarde is in het algemeen niet geschikt). Een veel voorkomende vraag is of een 1-zijdig 0,05 betrouwbaarheidsinterval aanvaardbaar is gezien het 1-zijdige karakter van noninferioriteit; 2-zijdige betrouwbaarheidsintervallen zijn echter over het algemeen geschikt voor consistentie tussen significantietests en daaropvolgende schatting. Merk op dat een eenzijdig 95%-betrouwbaarheidsinterval het bewijsniveau voor het trekken van conclusies zou verlagen in vergelijking met de gangbare praktijk in superioriteitsonderzoeken.

In superioriteitsonderzoeken neigt een op intent-to-treat (ITT) gebaseerde analyse ertoe conservatief te zijn (d.w.z. dat er een neiging is om ware behandelingsverschillen te onderschatten). Daarom worden ITT-analyses in het algemeen beschouwd als de primaire analyses in superioriteitsstudies, aangezien dit helpt om het type I-foutenpercentage te beschermen. Aangezien het doel van noninferioriteitstests is aan te tonen dat er geen sprake is van inferioriteit of vergelijkbaarheid, kan een onderschatting van het werkelijke behandelingsverschil leiden tot een vertekening in de richting van noninferioriteit, waardoor het foutpercentage “fout-positief” (d.w.z. ten onrechte beweren van noninferioriteit) wordt verhoogd. ITT is dus niet noodzakelijk conservatief in noninferioriteitstrials. Om deze redenen worden een ITT-analyse en een analyse per protocol (d.w.z. een analyse gebaseerd op studiedeelnemers die zich aan het protocol hebben gehouden) vaak beschouwd als co-primaire analyses in noninferioriteitstrials. Het is belangrijk beide analyses (en eventueel extra sensitiviteitsanalyses) uit te voeren om de robuustheid van het onderzoeksresultaat te beoordelen. Analyses per protocol resulteren vaak in een grotere effectgrootte, aangezien ITT de schatting van het effect vaak afzwakt, maar resulteren vaak in bredere betrouwbaarheidsintervallen, aangezien zij op minder studiedeelnemers zijn gebaseerd dan ITT.

Als een noninferioriteitstrial wordt uitgevoerd en de noninferioriteit van de interventie ten opzichte van een actieve controle wordt aangetoond, dan is een natuurlijke vraag of een sterkere claim van superioriteit kan worden gemaakt. Met andere woorden, wat zijn de gevolgen van het overschakelen van een noninferioriteitstest op een superioriteitstest? Omgekeerd, als een superioriteitstest wordt uitgevoerd en er geen significante verschillen tussen de groepen worden waargenomen, is het natuurlijk de vraag of een zwakkere bewering van noninferioriteit kan worden gedaan. Kan men van een superioriteitsproef overgaan op een noninferioriteitsproef?

In het algemeen wordt het aanvaardbaar geacht een superioriteitsevaluatie uit te voeren nadat de noninferioriteit is aangetoond. Vanwege het principe van gesloten tests is geen multipliciteitscorrectie nodig. De intent-to-treat- en per-protocol-analyses zijn beide belangrijk voor de noninferioriteitsanalyses, maar de intent-to-treat-analyses zijn de belangrijkste analyses voor de superioriteitsevaluatie. Het is moeilijker om een claim van noninferioriteit te rechtvaardigen nadat de superioriteit niet is aangetoond. Er zijn verschillende kwesties die moeten worden overwogen. Ten eerste is het belangrijk te weten of een noninferioriteitsmarge vooraf is gespecificeerd. Het post-hoc bepalen van de noninferioriteitsmarge kan moeilijk te rechtvaardigen zijn en kan als manipulatie worden beschouwd. De keuze van de noninferioriteitsmarge moet onafhankelijk zijn van de proefgegevens (d.w.z. gebaseerd op externe informatie), hetgeen moeilijk kan worden aangetoond nadat de gegevens zijn verzameld en de blindering is opgeheven. Ten tweede, is de controlegroep een geschikte controlegroep voor een noninferioriteitsonderzoek (d.w.z. is de superioriteit ten opzichte van placebo aangetoond en nauwkeurig gemeten)? Ten derde, was de werkzaamheid van de controlegroep vergelijkbaar met die welke in historische proeven ten opzichte van placebo werd aangetoond (constantheidsveronderstelling)? Ten vierde worden de intent-to-treat- en per-protocol-analyses even belangrijk. Ten vijfde moet de kwaliteit van het onderzoek hoog zijn (aanvaardbare therapietrouw en weinig drop-outs). Ten zesde moet de gevoeligheid van de assay aanvaardbaar zijn.

De rapportage van noninferioriteitstrials is in de medische literatuur suboptimaal geweest. Greene en coauteurs hebben in de Annals of Internal Medicine 88 studies beoordeeld die noninferioriteit claimden, maar merkten op dat 67% van deze studies noninferioriteit claimden op basis van niet-significante superioriteitstests. (Greene et al 2000) Bovendien werd in slechts 23% van de studies een niet-inferioriteitsmarge vooraf gespecificeerd. Piaggio en coauteurs publiceerden in de Journal of the American Medical Association een uitbreiding van de CONSORT-verklaring om de juiste rapportering van niet-inferioriteitstrials te schetsen. (Piaggio et al 2006) Er wordt momenteel gewerkt aan een FDA-leidraad over noninferioriteitstrials.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.