Pragmatische Studien und Implementierungswissenschaft: Gründe für die Scheidung?

Das stimmt. Auf die Gefahr hin, die Scheidungsmetapher des Papiers noch weiter zu strapazieren, möchte ich vorschlagen, dass der PRCT sich bessern, eine Mediation anstreben und weitere Unterstützung in Anspruch nehmen sollte. Alle Maßnahmen, die zur Verbesserung der Forschungsbeteiligung ergriffen wurden, sind zweifellos soziale Interventionen, und bei der Bewertung solcher Programme gibt es keine vereinbarte „Hierarchie der Evidenz“, sondern eher ein „Sammelsurium von Ansätzen“. In der Implementierungswissenschaft wurde vielleicht mehr als in jedem anderen Bereich des Gesundheitswesens über den optimalen Ansatz für solche gemischten Methoden oder hybriden Designs gestritten. Ich vermeide hier jeden Versuch, die Paradigmenkriege zu gewinnen. Teil 2 widmet sich einer einfacheren Aufgabe, nämlich dem Vorschlag, die Möglichkeiten, die PRCTs bieten, auf eine andere, umfassendere Weise zu nutzen. Er beginnt mit der Skizzierung einer Forschungsstrategie, um verallgemeinerbare Lehren aus der Implementierungswissenschaft zu ziehen (Tabelle 1), und schließt mit einem kurzen Beispiel, das den Ansatz veranschaulicht.

Tabelle 1 Evaluierung generischer Implementierungsstrategien

So ausgedrückt, kann ein solches Programm schrecklich abstrakt erscheinen. Dem möchte ich in zweierlei Hinsicht entgegentreten. Erstens hat diese Auffassung von der Kumulation von Wissen einen beachtlichen philosophischen Hintergrund. Zweitens findet das Modell praktische Anwendung, wenn man die Gesamtheit der Forschung zu einer Intervention untersucht und nicht nur einzelne Beiträge.

Der in Tabelle 1 vorgeschlagene Forschungsprozess entspricht weitgehend Poppers Theorie des wissenschaftlichen Erkenntnisgewinns, die sich stark auf die Idee der progressiven „Fehlerbeseitigung“ stützt (Abb. 2). Angewandt auf die Implementierungswissenschaft läuft die Strategie wie folgt ab. Die Forschung beginnt mit der anfänglichen Identifizierung eines Problems (P1), in diesem Fall des mangelnden Wissenstransfers. Es wird eine vorläufige Programmtheorie (TT1) aufgestellt, die eine Lösung bieten könnte, die in einem bestimmten Schema zur Verbesserung der Umsetzung von Forschungsergebnissen in die Praxis zum Ausdruck kommt. Das Programm wird in der Forschung eingesetzt und stößt ausnahmslos auf gemischten Erfolg. Dieses Ergebnis wird als vorläufig betrachtet und kann im Lichte späterer Erkenntnisse überarbeitet werden. Weitere Fortschritte hängen davon ab, dass sowohl die Erfolge als auch die Misserfolge des Programms untersucht werden, wobei der Schwerpunkt auf der Beseitigung der Fehler liegt (EE1). Diese Prüfung führt zu einem differenzierteren Verständnis des Problems (P2), zu einer verfeinerten Lösung (TT2) und zu weiteren Untersuchungen, ob sie nun positiv sind oder nicht. Die Ausmerzung weiterer Fehler (EE2) ist der Ansporn zu fortschreitendem Wissen. Der Prozess wiederholt sich dann unendlich.

Abbildung 2
Abbildung2

Poppers Theorie des Wissenswachstums als ‚Vermutungen und Widerlegungen‘. Quelle (Autor)

Gibt es in der Implementierungswissenschaft einen Prozess von Vermutungen und Widerlegungen? Wie bereits erwähnt, neigen viele Autoren dazu, ein unangemessenes Gefühl von Sicherheit, Endgültigkeit und Allgemeingültigkeit ihrer Forschungsergebnisse zu vermitteln. Betrachtet man jedoch die Fortschritte in der gesamten Forschung, so lässt sich eine eher vorsichtige und wahrheitsgemäße Geschichte erzählen. Wir wenden uns der Literatur zu, um ein Beispiel für Tabelle 1 zu finden.

Schritt eins

Rät dazu, dass PRCTs ihren Aufgabenbereich erweitern und zu multimethodischen Fallstudien werden. Der Ratschlag, dass RCTs ein qualitatives Element enthalten sollten, ist völlig alltäglich, obwohl es unterschiedliche Meinungen darüber gibt, ob die Verbindung am besten durch offene Interviews, Prozessevaluierung, intervenierende Variablenanalyse, theoriebasierte Evaluierung, realistische Evaluierung und so weiter hergestellt wird. Im Einklang mit all diesen Methoden, wenn auch selten so formuliert, steht der Vorschlag, dass solche Untersuchungen auch als Fallstudien betrachtet werden sollten, die eine von vielen Möglichkeiten untersuchen, wie solche Interventionen gestaltet werden können.

Wir müssen hier nicht lange nach einem Beispiel suchen, denn die PEMs-Studie wurde in der Tat von einer „theoriegestützten Prozessevaluation“ begleitet. Die letztgenannte Studie verwendete eine Mischung aus standardisierten Fragebögen und offenen Interviews, um die Einstellung der Ärzte zu und ihre Erfahrungen mit der Intervention zu ermitteln, und beginnt damit, das Null-Ergebnis der PRCT zu erklären. Kurz gesagt, die qualitative Studie zeigt eine positive Einstellung gegenüber dem Retinopathie-Screening, ein umfassendes Wissen über dessen Verfügbarkeit und eine starke Absicht, die Überweisungen durchzuführen, die vor und nach der Intervention besteht. Und dennoch wissen wir aus der PRCT, dass die Überweisungsraten statisch (und enttäuschend) bleiben. Die Erklärung, die sich aus den offenen Interviews ergibt, ist, dass eine Reihe von „post-intentionalen“ Faktoren die behauptete Bereitschaft zur Überweisung abschwächt. Diese werden in Form von anschaulichen Zitaten der Befragten dargestellt, die ein vielfältiges Bündel praktischer Bedenken ansprechen – die Vorliebe der Ärzte für ihr eigenes Urteil, gegensätzliche Auffassungen über die Wirksamkeit der Vorsorgeuntersuchung, Zeitmangel und Zeitdruck, der Verwaltungsaufwand für die Überweisung, das Desinteresse mancher Patienten an der Vorsorgeuntersuchung, die Nichtübernahme der Vorsorgeuntersuchung durch einige Versicherungen, lange Wartezeiten und die Unzugänglichkeit mancher Vorsorgeuntersuchungen.

Wir haben einen ersten Blick auf einen positiven Erklärungszusammenhang. Die strenge PRCT sichert das Ergebnis, kann aber nicht sagen, warum die Intervention unwirksam ist. Bei der qualitativen Untersuchung wird eine Reihe von zugrunde liegenden Prozessen untersucht, die zeigen, wie die Erfahrung der Ärzte, die Präferenzen der Patienten und die administrativen Zwänge zu dem unerwarteten Ergebnis geführt haben könnten. Dies ist eine höchst plausible Erklärung für das Scheitern des Programms, die jedoch noch nicht verallgemeinert werden kann. Es gibt zwei Hindernisse.

Erstens beziehen sich alle oben genannten Daten (quantitativ und qualitativ) auf die Besonderheiten des Gesundheitsmanagements und die Präferenzen verschiedener Interessengruppen an diesem Ort und zu diesem Zeitpunkt. Es bleibt eine einzigartige Fallstudie. Das zweite und interessantere Defizit ergibt sich aus einer üblichen Einschränkung einer solchen qualitativen Analyse, nämlich dass „die Analyse der Variation zwischen den Informanten nicht explizit berichtet wird“ (unsere Kursivschrift). So erstellen Grimshaw et al. typischerweise, wie auch in der obigen Zusammenfassung, eine Liste verschiedener „Themen“, die die vielen Gründe beschreiben, warum Praktiker die maßgeschneiderte Leitlinie übersehen oder sich ihr widersetzen. Aus ihrem Inhalt geht klar hervor, was jedoch nicht berichtet wird, ist, dass diese abweichenden Reaktionen auf die PEM für bestimmte Untergruppen von Praxen und Praktikern spezifisch sind. Nur einige werden es vorziehen, ihrem eigenen Urteil zu vertrauen; nur einigen wird es an administrativer Unterstützung mangeln; nur einige ihrer Patienten werden Zugangsprobleme haben. Und ohne die genaue Identität und den relativen Umfang dieser verschiedenen Gruppen zu kennen, können wir nicht wissen, ob das gleiche Ergebnis auch in anderen Umfeldern erzielt würde. Wir können nicht verallgemeinern.

Zusammenfassend lässt sich sagen, dass die Hinzufügung einer qualitativen Beschreibung zur quantitativen Bewertung eine umfassendere Evidenzbasis liefert, um das Schicksal einer Intervention zu verstehen, aber es sind zusätzliche Forschungsstrategien erforderlich, um zu beurteilen, ob sich dieses Schicksal wahrscheinlich wiederholen wird.

Schritt zwei

stellt den Anfang der Strategie dar, diese Evidenzfragmente besser zu organisieren. Der Schlüssel dazu ist die Einführung theoretischer Konstrukte, um den Erklärungsrahmen solcher lokalen Befunde zu erweitern. Dieser Ansatz vermeidet die statistische Vorstellung, dass die Verallgemeinerung auf Typizität beruht, d. h. auf der Behauptung, dass die untersuchte Intervention „repräsentativ“ für eine größere Population von Interventionen ist, aus der sie entnommen wurde. Das PEM-Programm ist ein komplexes System, das aus einer adaptiven Intervention, einem Standort, einem Verwaltungssystem, einem Kommunikationsweg, einer Patientenpopulation, mehreren Schichten von Fachleuten, einer Form der finanziellen Regulierung, einer Art von Gesundheitsdienstleistung usw. besteht. Keine Studie kann den Anspruch erheben, für alle diese Merkmale repräsentativ zu sein.

Die hier vorgeschlagene Alternative ersetzt das „Programm“ durch die „Programmtheorie“ als Grundeinheit der Analyse. Programmtheorien beziehen sich auf die grundlegenden Ideen, die hinter einer Intervention stehen, auf die Argumentation, warum sie funktionieren sollte. Solche Theorien sind allgemeiner Natur. Sie tauchen in der Programmplanung und Politikgestaltung immer wieder auf (einen Überblick über die Theorien der Implementierungswissenschaft finden Sie bei Nilsen). Kennzeichnend für solche Theorien ist, dass sie auf einer Abstraktionsebene operieren, die über die konkrete Intervention, wie die hier untersuchte, hinausgeht. Die Abstraktion, oder Abduktion, wie sie manchmal genannt wird, ist selbst ein starker Verbündeter der Verallgemeinerung. Wir erklären ein bestimmtes Ereignis als einen erkennbaren Fall einer größeren Klasse von Fällen, als eine Variation eines Themas, über das wir bereits ein gewisses Vorwissen haben. Das vorhandene Verständnis liefert vorläufige Ideen über die Stärken und Schwächen dieser Klasse von Programmen, die Aufschluss darüber geben, was bei einer neuartigen Anwendung zu erwarten ist, wobei dieser Einblick dann bei einer genaueren Untersuchung jeder Inkarnation der Programmtheorie weiter verfeinert wird.

Anstatt also das „2005-Onatario-printed-educational-messages-scheme-to-increase-practitioner-referrals-for-retinal-screening“-Programm als einmalig zu betrachten (was es auch ist), sehen wir es als ein weiteres Beispiel für eine bewährte Idee (was es auch ist). Worum geht es also bei PEMS? Was ist die altehrwürdige Programmtheorie? Ich habe natürlich keinen Zugang zu den genauen Überlegungen der Verantwortlichen für diese spezielle Maßnahme. Aber es gibt viele Anhaltspunkte. PEMs sind Teil der „Industrie für klinische Praxisleitlinien“ oder der „Bewegung für standardisierte Pflege“. Die allgemeine Idee besteht darin, Ordnung und Vorhersehbarkeit in das Verhalten der Ärzte zu bringen, indem verbindliche „Erinnerungen“, „Aktualisierungen“, „Protokolle“, „Bulletins“ und „berufliche Weiterbildung“ bereitgestellt werden. In allen Fällen ist die Botschaft das Medium. Die zugrundeliegende Annahme, die gemeinsame Interventionstheorie, ist ganz einfach, nämlich dass gut informierte, gut qualifizierte Angehörige der Gesundheitsberufe auf beruflich anerkannte, evidenzbasierte Informationen reagieren und versuchen werden, diese zu befolgen.

Der entscheidende Punkt ist, um es noch einmal zu wiederholen, dass wir bereits sehr viel über diese Theorie und ihre tiefgreifenden Grenzen wissen. Informationen mögen zwar eine hohe Glaubwürdigkeit haben, aber Autorität auf dem Papier allein ist selten in der Lage, tief verwurzelte persönliche Präferenzen, Zeitdruck, bestehende Routinen und institutionelle Zwänge zu überwinden. Ironischerweise tauchen die Erkenntnisse aus den unzähligen Studien, die uns die vielen Gründe aufzeigten, warum Praktiker keine formalen Forschungspublikationen lesen, und die für die Einführung der Implementierungswissenschaft verantwortlich waren, in einem Implementierungsprogramm wieder auf, das versucht, Praktiker mit maßgeschneiderten, direkt per Post verschickten Evidenzbulletins zu beschäftigen. Das hätte uns nicht überraschen dürfen. Selbst wenn die angebotenen Ratschläge auf große Akzeptanz stoßen, werden einige Praktiker sie nicht beherzigen, weil die alltäglichen externen Effekte ihrer Arbeit weiterhin vorherrschen.

Damit kommen wir zum nächsten Merkmal eines programmtheoretischen Ansatzes. Diese Theorien sind ebenso wie die Maßnahmen, die sie untermauern, unbeständig und fehlerhaft. Wir wissen also eine Menge über die „Richtlinientheorie“, weil sie in zahlreichen Anwendungen erprobt und für unzureichend befunden worden ist. So wie wir die Ideen, die einer Intervention zugrunde liegen, abstrahieren, müssen wir auch Programmtheorien entwickeln, die abstrakte Hypothesen über die Bedingungen für den Erfolg oder Misserfolg liefern. Politische Entscheidungsträger haben eine Reihe von Vorstellungen über ein Programm, denen oft ganz andere Vorstellungen der Praktiker gegenüberstehen. Der programmtheoretische Ansatz zeichnet sich dadurch aus, dass er von gemischten Resultaten ausgeht. Im vorliegenden Fall besteht die Aufgabe darin, Theorien darüber aufzustellen, welche Art von Praktikern in welcher Art von Praxis die Leitlinien wahrscheinlich beherzigen (oder missachten) werden.

Obwohl das Ziel darin besteht, sie als abstrakte, formale Hypothesen zu behandeln, haben solche Theorien nichts Esoterisches oder Gelehrtes an sich.Fußnote 1 Wenn man beispielsweise auf die qualitative Teilstudie von Grimshaw et al. zu den Reaktionen auf die Retinopathie-PEM zurückgreift, gibt es mehrere implizite und ungetestete Hypothesen, die darauf hindeuten, welche Praktiker und welche Praxen unterschiedliche Reaktionen aufweisen könnten. Das vielleicht einfachste der vielen Themen, die für die Nichteinhaltung der maßgeschneiderten Leitlinien aufgedeckt wurden, ist das „Vertrauen in die eigene klinische Beurteilung“. Welche Untergruppe von Ärzten könnte dies begründen? Eine elementare Hypothese ist, dass es sich um eine Reaktion handelt, die mit der Erfahrung der Praktiker wächst, eine Behauptung, die dann empirisch mit einem Vergleich der Veränderung der Überweisungsraten zwischen „Veteranen“ und „Neulingen“ getestet werden könnte.

Der eigentliche Punkt, diese „Erfahrungshypothese“ als Programmtheorie zu behandeln, ist, dass wir sie im Voraus kennen. Wir wissen aus einer Vielzahl von Studien, dass die Einhaltung von Leitlinien suboptimal ist. Wir können also davon ausgehen, dass ein „Erfahrungsdifferential“ in den Tausenden von anderen Leitlinien, die es für jede Erkrankung, jeden Test und jede Behandlung gibt, als Problem auftauchen könnte. Was wir jedoch nicht wissen, ist die Art und Weise, in der Erfahrung einen Unterschied macht. Erfahrung ist mehr als nur die Anzahl der Jahre, die ein Arzt in seinem Beruf verbringt. Erfahrung bringt auch Autonomie, Seniorität, Führungsverantwortung, berufliche Verpflichtungen, Fachwissen, zunehmende Vertrautheit mit Krankheiten, mit Patienten und mit dem System“ usw. mit sich. Es wird immer einige subtile Variationen in dem geben, was „Erfahrung“ ausmacht, und indem wir die Idee und ihre Folgen durch eine Reihe von Fallstudien verfolgen, können wir ein Verständnis für ihre unterschiedlichen Auswirkungen entwickeln. Theorien sind dazu da, getestet und verfeinert, erneut getestet und verfeinert zu werden – und aus diesem Prozess ergibt sich die Verallgemeinerung.

Schritt drei

Wie also sollten Programmtheorien getestet werden? Ein entscheidender Schritt besteht hier darin, den Schwerpunkt darauf zu verlagern, was das Explanandum in der Versuchsforschung darstellt. Alle WT-Interventionen haben ein unterschiedliches Schicksal, und die Erklärung der Vielgestaltigkeit sollte das Hauptziel sein. Der analytische Schwerpunkt sollte eher auf „Ergebnismustern“ als auf „Ergebnissen“ oder auf „heterogenen Wirkungen“ als auf „Nettoeffekten“ liegen. Dieser Vorschlag ist auf erheblichen Widerstand gestoßen. Das Standardmodell, auch nach dem Aufkommen des Pragmatismus, besteht darin, die Ergebnisse in behandelten und unbehandelten Gruppen zu vergleichen, wobei die PRCT eine ausreichende statistische Aussagekraft aufweisen muss, um einen Nettoeffekt als Grundlage für die Prüfung der nach wie vor als grundlegend angesehenen Ergebnisfrage – hat die Intervention „gewirkt“ – zuverlässig nachzuweisen. Mit zunehmender Häufigkeit werden qualitative Untersuchungen hinzugefügt, um ein zusammengesetztes Bild der Überlegungen der Hauptempfänger zu erstellen, die zu der beobachteten Wirkung beigetragen haben könnten.

Dieses Modell hat sich trotz einer umfangreichen klinischen Literatur gehalten, die zeigt, dass es fast ausnahmslos Probanden gibt, die innerhalb der „behandelten Population“ einen größeren oder geringeren Nutzen erfahren. Die vom gesunden Menschenverstand geprägte Vorstellung, dass Behandlungen nicht bei jedem wirken, wird im klinischen Bereich als Heterogenität der Behandlungseffekte (HTE) bezeichnet, und ihre Auswirkungen sind beträchtlich, wie in diesem berühmten Zitat von Kravitz et al.

„Wenn HTE vorhanden ist, kann der bescheidene Nutzen, der vielen Behandlungen zugeschrieben wird, irreführend sein, weil die bescheidenen durchschnittlichen Effekte eine Mischung aus erheblichem Nutzen für einige, geringem Nutzen für viele und Schaden für einige wenige widerspiegeln können“.

Dieser Satz ist sogar noch aktueller, wenn wir über den Aufbau pragmatischer Studien nachdenken. HTE ist selbst in Phase drei der Arzneimittelwirkungsstudien vorhanden, die sehr sorgfältig abgegrenzte Ein- und Ausschlusskriterien haben und eine Vielzahl weiterer Kontrollen einsetzen. Die eigentliche Idee pragmatischer Studien besteht darin, in realen Umgebungen zu untersuchen, in denen solche Kontrollen gelockert werden. Auf jeder Dimension der PRECIS-Grafik gibt es eine eingebaute, eingegebene Variation. Daraus folgt, dass HTE in PRCTS aufgrund ihres Designs besonders ausgeprägt ist, eine äußerst tiefgreifende, aber weitgehend ignorierte Beobachtung, die zuerst von Segal et al. gemacht wurde. Die Bedeutung des zusammenfassenden Ergebnisses, des Netto-Behandlungseffekts, wird dadurch verringert. Im Falle von Sozialprogrammen wie PEMS kann der durchschnittliche und nicht vorhandene Behandlungseffekt, um es mit Kravitz zu sagen, durchaus eine Informationskampagne widerspiegeln, die einen erheblichen Einfluss auf bestimmte Praktiker hatte, von vielen anderen unbemerkt blieb und für einige wenige einen weiteren lästigen Abschreckungseffekt darstellte.

Eine solche Möglichkeit wird bei PRTs im Allgemeinen und in unserem speziellen Beispiel der PEMS-Studie gerne übersehen. Die Priorität der Studienteilnehmer besteht immer darin, die interne Validität zu schützen, indem sie durch Randomisierung sicherstellen, dass ein Gleichgewicht der Merkmale und potenziellen Prädispositionen zwischen Versuchs- und Kontrollgruppe besteht. Unter diesem Gesichtspunkt berichten Zwarenstein et al. von einer zufriedenstellenden Übereinstimmung zwischen Versuchs- und Kontrollpraxen in Bezug auf die „Geschlechterzusammensetzung“, den „Ort der Ausbildung“, die „Praxisgröße“ und – in unserem hervorgehobenen Beispiel – die „Jahre der Erfahrung der Ärzte“. Die Tatsache, dass diese und andere Merkmale der Empfänger gleichmäßig auf die Versuchs- und Kontrollbedingungen verteilt sind, bedeutet nicht, dass die Umstände, die sie widerspiegeln, keinen Einfluss darauf haben, ob die pädagogischen Updates beachtet werden. Es bleibt immer noch die Möglichkeit offen, dass es beträchtliche Untergruppen- und Unterprozessunterschiede in der Reaktion auf die Beratung gibt, die, wie in Kravitz‘ Szenario, im Nettoeffekt unerkennbar bleiben können.

Diese Möglichkeit kann untersucht werden, indem die Ergebnisse in unterschiedlich veranlagten Gruppen identifiziert und verglichen werden. Qualitative Analysen können wichtige Hinweise auf diese wahrscheinlichen Veranlagungen liefern. Aber auch hier scheitert der Gewinn, heterogene Ergebnisse zu verstehen, oft an einer etwas anderen Tradition dieser Form der Untersuchung. In der qualitativen Analyse wird seit langem die „dichte Beschreibung“ hochgehalten. Wie in der Teilstudie von Grimshaw geht es darum, das gesamte Spektrum der Einstellungen gegenüber dem Programm zu erfassen, häufig durch thematische Analyse. Die Absicht vieler qualitativer Analysen ist es, eher umfassend als analytisch zu sein. Das Ziel ist es, eine „Sättigung“ in der Beschreibung der Dispositionen der Probanden zu erreichen, anstatt den Verhaltensfolgen der verschiedenen Dispositionen nachzugehen.

Die Unvermeidbarkeit unregelmäßiger Auswirkungen bei Interventionen, die in der Implementierungswissenschaft untersucht werden, verändert die Forschungsfrage. Letztlich geht es nicht darum, zu entscheiden, ob Interventionen wirken. Was vielmehr erforscht, verstanden, beraten und genutzt werden muss, ist ihre unterschiedliche Wirkung.

Schritt vier

Nachdem ich über eine überarbeitete Agenda für die Implementierungswissenschaft spekuliert habe, nämlich die vielfältigen Kontingenzen zu untersuchen, die zu den Erfolgen und Misserfolgen von Programmtheorien beitragen, bleibt es, eine Darstellung der Forschungsdesigns zu liefern, die diese Aufgabe erfüllen können. Ich habe bereits für einen theoriegeleiteten Ansatz plädiert, der Sequenzen oder Serien von Studien mit gemischten Methoden vorsieht. Natürlich gibt es eine Reihe von prospektiven und retrospektiven Designs, die sich dafür eignen würden. Was ich hier jedoch hervorheben möchte, sind zwei einfache Analysestrategien, die bei der Suche nach verallgemeinerbaren Erkenntnissen von zentraler Bedeutung sind.

In der Fachsprache der Fallstudienforschung werden diese Strategien als „fallinterne“ und „fallübergreifende“ Analyse bezeichnet. Wie könnten diese bei der Untersuchung der Leitlinientheorie eingesetzt werden? Im ersten Fall werden verschiedene Untergruppen von Empfängern einer Leitlinie identifiziert, es werden Hypothesen zu Unterschieden in ihren Prädispositionen und ihrem daraus resultierenden Verhalten in Bezug auf die Empfehlungen aufgestellt, und es werden Daten generiert, um diese Hypothesen zu überprüfen. Die Befolgung von Leitlinien hängt jedoch nicht nur von den beteiligten Personen ab, sondern auch von ihren Rollen, ihren Netzwerken, ihren Organisationen und dem weiteren regulatorischen Umfeld, in dem sie arbeiten. Um diese Einflüsse herauszuarbeiten, sind fallübergreifende Studien erforderlich, wobei die Vergleiche so gewählt werden, dass sie die Ergebnisse widerspiegeln, die an verschiedenen institutionellen Standorten, an denen die Leitlinie befolgt wird, erzielt werden können.

Der Lernerfolg nimmt zu, wenn diese analytischen Schnitte nacheinander angewendet werden. Vorhandenes Wissen über die Stärken und Schwächen, die Gewinner und Verlierer früherer Versionen der Programmtheorie fließt in die Auswahl der Vergleichsgruppen in Untersuchung 1 ein. Einige dieser Hypothesen werden sich bestätigen, andere werden widerlegt. Dies gibt den Anstoß zu Untersuchung 2, in der die Programmtheorie überarbeitet und die Vergleichsgruppen angepasst werden, um die entstehende Heterogenität der Ergebnisse zu erklären. Überarbeitete Programmtheorien bleiben fragil. Sie stoßen auf Konformitäten und Anomalien, und die Forschung wird durch weitere Fallstudien fortgesetzt, um sie auszubügeln (siehe Abb. 2).

Damit ist der Entwurf einer Strategie mit gemischten Methoden zur Evaluierung allgemeiner Implementierungsstrategien fertiggestellt. Ähnlich wie klinische Leitlinien haben methodische Vorgaben nur dann Bedeutung, wenn sie in der Praxis Anwendung finden. Dies bringt mich zur letzten Bitte in einem Papier der Bitten, nämlich die zunehmende Verwendung von fallinternen und fallübergreifenden Analysen in der Implementierungswissenschaft zu begrüßen. Ich habe hier nur Platz, um vier kurze Beispiele zu skizzieren, die die Argumente für theoriegeleitete Fallstudien mit mehreren Standorten und gemischten Methoden veranschaulichen. Diese Beispiele setzen dort an, wo die vorangegangenen Beispiele aufgehört haben, nämlich bei unserer anfänglichen und höchst fragwürdigen Programmtheorie, dass Fachkräfte im Gesundheitswesen auf von Fachleuten befürwortete, evidenzbasierte Leitlinien reagieren, und bei unserer auf dem gesunden Menschenverstand beruhenden Umsetzungstheorie, dass die „Erfahrung der Fachkräfte“ einen Unterschied bei der Übernahme der Leitlinien ausmacht.

Grove et al. untersuchten die Reaktionen von orthopädischen Chirurgen auf die NICE-Leitlinien zum totalen Hüftgelenkersatz in drei NHS-Krankenhäusern. Diese leitenden Kliniker reagierten je nach Umfeld recht unterschiedlich auf die Leitlinien. In Fall A, einem akademischen Zentrum, das in einer Trauma- und Orthopädieabteilung angesiedelt ist, hatten die Chirurgen eine „positive Einstellung zu formalem, kodifiziertem Wissen“, waren „daran gewöhnt, Fragen anhand eines größeren Bezugsrahmens zu beantworten“ und erstellten ihre „eigene Protokolldokumentation in Verbindung mit einem Teil der klinischen Leitlinien“. Fall C, eine orthopädische Abteilung in einem Lehrkrankenhaus, bildete den extremen Gegensatz: Die Chirurgen berichteten, dass sie „den NICE-Prozess ihrer Organisation noch nie gesehen hatten“, da dieser „in den Bereich der Verwaltung und des Managements gehörte“. Hier bevorzugten die Chirurgen „belastbares Erfahrungswissen, das im Laufe der Zeit aufgebaut wurde“ und auf „dem angeborenen Gefühl der Chirurgie“ beruhte. Die Erfahrung treibt diese leitenden Kliniker in entgegengesetzte Richtungen – je nach Kontext.

Rycroft-Malone et al. untersuchten die Reaktionen auf die „protokollgestützte Pflege“ in einer Mehrfallstudie in den Bereichen Krankenpflege, Hebammenwesen und Krankenbesuche usw. Die Instrumente stießen auf recht unterschiedliche Reaktionen. Im Einklang mit unserer Ausgangshypothese berichten die Autoren, dass die erfahreneren Praktiker „entweder nicht auf sie zurückgriffen oder sie flexibel einsetzten“. Außerdem, so die These, sahen die jüngeren Praktiker die Protokolle als „nützliche Informationsquellen“ an. Es gibt jedoch eine Reihe signifikanter Wendungen. In einigen Kontexten wird die Autorität, die von Leitlinien ausgeht, als stärkend empfunden. Die Standardisierung dessen, was eine gute Praxis ausmacht, „ermöglichte die Ausweitung traditioneller Rollen und erleichterte eine autonome Praxis, was wiederum zu einer stärker von Krankenschwestern und Hebammen geleiteten Pflege und Dienstleistung führte“. Im Gegensatz dazu wurden „in Kontexten, in denen das Personal häufig wechselt oder die auf Leiharbeitskräfte angewiesen sind“, die Leitlinien „in das Einführungsmaterial und die Kompetenzbeurteilung aufgenommen“. In diesen Situationen ist die Befolgung der Leitlinie relativ hoch, da sie eingefordert und gecoacht wird.

Moule et al. bewerteten ein Qualitätsverbesserungsprogramm, das die NICE-Leitlinien zum Einsatz von Antikoagulanzien zur Verringerung von Schlaganfällen bei Vorhofflimmern in sechs Allgemeinpraxen im Vereinigten Königreich einbezog. Die Mittel wurden unterschiedlich eingesetzt. Auch hier erwiesen sich die Erfahrung und die vorgefassten Meinungen der Hausärzte als wichtig – allerdings mit weiteren Variationen des Themas. In diesem Fall übernahmen einige der erfahrensten Ärzte mit persönlichem Fachwissen die Leitung des Programms und trugen dazu bei, dass die Leitlinien zu einem Überprüfungs- und Follow-up-Programm wurden. In anderen Praxen, in denen der Allgemeinmediziner oft isoliert arbeitete, fehlte es an der „Systemeinstellung“ …, die es ihnen ermöglicht, Patienten zu verfolgen/zu überwachen. In diesen Fällen war das Vertrauen auf Erfahrung und persönliches Urteilsvermögen zum großen Teil auf das Fehlen einer formalen Infrastruktur für die Umsetzung der Leitlinien zurückzuführen.

Spyridonidis und Calnan untersuchten anhand eines Längsschnittes, eines fallinternen und eines fallübergreifenden Vergleichs, wie sich die Umsetzung von zwei NICE-Leitlinien zu chronischer Herzinsuffizienz (CHF) und Adipositas im Laufe der Zeit entwickelt hat. Ihr Schwerpunkt liegt auf der Anpassung des gesamten Systems an die Leitlinien, und so untersuchten sie die Perspektiven von Führungskräften, leitenden und mittleren Managern, Krankenhausärzten, Hausärzten, Krankenschwestern und Angehörigen anderer Gesundheitsberufe. Die Leitlinien werden wie immer „variabel“ befolgt; ihre Umsetzung schwankt „hin und her“, da verschiedene Interessengruppen über ihre konkurrierenden Konsequenzen nachdenken. Eine Option der NICE-Leitlinie zur Adipositas war beispielsweise die bariatrische Chirurgie. Nach einem Anstieg der Überweisungen für bariatrische Eingriffe wurde die Leitlinie rasch umgeschrieben, um ein teures Verfahren zu rationieren. In einem anderen Beispiel wurde in der NICE-Leitlinie zur Herzinsuffizienz der Einsatz von Betablockern empfohlen, die jedoch nicht in ein weiteres System des NHS, das Quality and Outcomes Framework (QOF), einbezogen waren, das Hausärzte für die Erfüllung einer Reihe von Leistungsindikatoren vergütet. Die Umsetzung der NICE-Empfehlung geriet ins Stocken, da die Konvergenz der jeweiligen Politiken abgewartet werden musste.

Viele, viele weitere solcher Fallstudien könnten natürlich herangezogen werden, um das Verständnis für die unregelmäßige Umsetzung der Leitlinien zu vertiefen.Fußnote 2 Der springende Punkt ist, dass ein Forschungsprogramm, das mit einer relativ abstrakten Programmtheorie und nicht mit einem Wald von Einzelinitiativen beginnt, die Schwankungen bei den Ergebnissen, die routinemäßig auf die Umsetzung von Leitlinien folgen, aufdecken kann. Im vorliegenden Fall ging ich von der groben Umsetzungstheorie aus, dass Nachwuchskräfte eher dazu neigen, von Fachleuten befürwortete Leitlinien zu respektieren, während erfahrene Praktiker eher ihrem eigenen Urteil vertrauen. Diese Theorie ist voller Löcher oder, wie Popper es vielleicht ausdrücken würde, sie bedarf dringend der „Fehlerbeseitigung“. So stellen wir fest, dass erfahrene Praktiker begeisterte Verfechter von Leitlinien sein können – wenn sie in Einrichtungen arbeiten, die sich an einer breiteren epidemiologischen Perspektive orientieren. Wir stellen fest, dass die Vorliebe einiger erfahrener Ärzte für ihr eigenes Urteil in Wirklichkeit darauf zurückzuführen ist, dass ihnen die Systeminfrastruktur zur Umsetzung einer neuen Leitlinie fehlt. Wir stellen fest, dass einige relativ junge Mitarbeiter Leitlinien sehr wohl annehmen – allerdings auf der Grundlage, dass sie Autonomie und Ermächtigung bieten und nicht die Weisheit der Forschung vermitteln. Wir stellen fest, dass andere untergeordnete Gruppen Leitlinien, die von der Forschung unterstützt werden, einfach deshalb befolgen, weil sie in die Einarbeitung und Ausbildung integriert sind. Wir stellen fest, dass Praktiker, die neuen Leitlinien gegenüber wohlgesonnen sind, oft an der Anwendung der Systeme gehindert werden, weil andere Interessengruppen (die oft mehr Macht haben) der Meinung sind, dass die Änderungen schädliche Folgen für ihre Arbeitsbereiche haben werden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.