Mehr Ergebnisse, mehr Probleme: Ein praktischer Leitfaden zum Testen mehrerer Hypothesen in Folgenabschätzungen (Teil 2)

Dies ist Teil zwei einer dreiteiligen Reihe zum Testen mehrerer Hypothesen in Folgenabschätzungen. Im ersten Beitrag habe ich darüber geschrieben, wann mehrere Hypothesentests erforderlich sind. In diesem zweiten Beitrag schreibe ich über Strategien, um das Testen mehrerer Hypothesen zu vermeiden. Und im dritten Beitrag werde ich über gängige Methoden zum Testen mehrerer Hypothesen sprechen.

Das Korrigieren mehrerer Hypothesen kann die Aussagekraft einer Bewertung drastisch verringern und auch eine Art Schmerz darstellen. Wirklich, niemand will es jemals tun. Welche Schritte können Sie unternehmen, um dies zu vermeiden? Wie in Teil 1 dieser Reihe dargelegt, besteht die häufigste Situation, in der mehrere Hypothesentests erforderlich sind, darin, dass eine Intervention viele interessante Ergebnisse hat und man eine Schlussfolgerung ziehen möchte (z. B. die Intervention als „Erfolg“ deklarieren). ) solange es signifikante Behandlungseffekte gibt) auf alle der Ergebnisse. Der Schlüssel ist, diese Situation zu vermeiden. Wir diskutieren zwei gängige Lösungen: Indizierung und Vorabspezifikation.

Indexierung

Die erste Möglichkeit ist die Indizierung. Dies bedeutet, dass Sie eine einzelne Kennzahl erstellen, die eine Kombination aller Ihrer Ergebnisse darstellt. Dies umfasst normalerweise zwei Schritte: Zuerst standardisieren Sie alle Ihre Ergebnisse (normalerweise Null und Standardabweichung von Eins), damit sie vergleichbar sind, und dann erstellen Sie einen gewichteten Durchschnitt aller Ergebnisse. Voila, viele Ergebnisse sind eins geworden!

Aber hier gibt es ein paar Komplikationen. Wie bestimmen Sie zunächst die Gewichte? Eine Möglichkeit wäre, dass der Forscher die Gewichte einfach in Abhängigkeit von einem Maß an „Wichtigkeit“ vorab spezifiziert. Dies kann jedoch je nach Kontext sinnvoll sein oder auch nicht. Ein anderer Ansatz wäre die Verwendung eines Algorithmus, der auf der Varianz-Kovarianz-Matrix der Ergebnisse basiert, beispielsweise die Verwendung der inversen Kovarianzgewichtung oder die Verwendung der ersten Hauptkomponente. Diese Ansätze versuchen, eine einzelne Variable zu erstellen, die so viel wie möglich von der Variation der Ergebnismenge erfasst. (Ich verweise auf diesen großartigen Beitrag von Cyrus Samii, um den Unterschied zwischen den beiden Ansätzen zu verstehen.)

Noch wichtiger ist jedoch, ob ein Index wirklich nützlich ist oder nicht. Insbesondere im Gespräch mit politischen Entscheidungsträgern ist die Interpretation der Ergebnisse eines Index äußerst schwierig. Stellen Sie sich das folgende Gespräch vor: “Ja, Minister, Ihr gemeindenahes Entwicklungsprogramm hat erfolgreich eine invers kovariatengewichtete Matrix aus Transportzeit, Zugang zu Latrinen und Gemüseeinkommen erhöht.” Ich kann mir vorstellen, dass es viele weitere Fragen geben wird. In der Praxis sollte es für einen Forscher akzeptabel sein, einen Index als primäre Ergebnisvariable vorab anzugeben und dennoch (nicht angepasste) Schätzungen der Behandlungseffekte für jede der Indexkomponenten zu melden. Diese Komponentenregressionen müssten jedoch als „explorative“ Analyse angesehen werden, um die Treiber des Index zu erläutern. Und es wäre sicherlich nicht gültig, signifikante Ergebnisse zu bestimmten Ergebnissen zu posaunen, wenn es kein signifikantes Ergebnis im Index gäbe. Dies ist direkt auf die P-Hacking-Situation zurückzuführen, die wir vermeiden wollten.

Insgesamt ist die Indexierungslösung in einigen Fällen am attraktivsten. Das erste ist, wenn alle Ergebnisse eng miteinander verbunden sind, da dies die Interpretation und Erklärung des Index erleichtert. Nehmen wir zum Beispiel an, Sie haben ein Umfragemodul, das sich mit verschiedenen Dimensionen der Ernährungssicherheit befasst (z. B. hungrig ins Bett gehen, Mahlzeiten auslassen, Protein aus tierischen Quellen konsumieren usw.). Dies ist sinnvoll, da diese Fragen gestellt werden Alle versuchen, zu denselben grundlegenden Ergebnissen zu gelangen, was leicht als „Ernährungssicherheit“ erklärt werden kann. Ein weiterer Ort, an dem Indizes wahrscheinlich nützlich sind, ist die Messung von Programmen mit unsicheren Interventionen, bei denen jedes zu unterschiedlichen Ergebnissen führt (z. B. von der Gemeinschaft gesteuerte Entwicklungsprogramme). In diesem Fall wird eine Bewertung wahrscheinlich nicht für ein denkbares individuelles Ergebnis durchgeführt, da alle Gemeinschaften an unterschiedlichen Projekten mit unterschiedlichen Zielen arbeiten. Daher ist es wahrscheinlich erforderlich, eine Ergebnisvariable zu erstellen, die aus vielen möglichen Ergebnissen besteht, die Sie in einem Index erhalten.

Vorbestimmung

Während die meisten Selbstwertbewertungen heutzutage einen Voranalyseplan haben, kann eine sorgfältige Vorabspezifikation die Notwendigkeit mehrerer Hypothesentests verringern oder beseitigen. Ein einfacher Voranalyseplan sollte die ungeheuerlichsten Formen von P-Hacking ausschließen, bei denen der Forscher viele Ergebnisse testet und nur die signifikanten meldet. Da der Forscher an die Ergebnisse gebunden ist, die er im Voranalyseplan aufgeführt hat, muss er alle melden. (Eine gute Erklärung und ein Beispiel für diesen Ansatz finden Sie in Casey et al. (2012), gated, ungated. Zusätzlich gibt es diese Woche einen Beitrag von David McKenzie im Development Impact Blog mit einer großartigen Analyse der Voranalysepläne.)

Wenn es jedoch immer noch mehrere vorab festgelegte interessierende Ergebnisse gibt, müssen möglicherweise immer noch mehrere Hypothesen korrigiert werden. Eine übliche Methode, um dies zu umgehen, besteht darin, ein einzelnes Ergebnis als „primäres“ Ergebnis und andere Ergebnisse als „sekundäres“ Ergebnis vorab anzugeben. In diesem Fall setzt der Forscher im Wesentlichen alle seine Chips hinter dieses eine Ergebnis, und die Intervention kann nur dann als „Erfolg“ bezeichnet werden, wenn signifikante Auswirkungen auf dieses primäre Ergebnis vorliegen. Sekundäre Ergebnisse können zusätzlichen Kontext und Farbe liefern, können jedoch im Allgemeinen nicht unabhängig als Erfolgsmaßstab verwendet werden.

Wann ist das angemessen? Nun, es muss ein Fall sein, in dem der Forscher argumentieren kann, dass dieses einzelne Ergebnis einfach wichtiger ist als alle anderen. Bei einer entscheidungsorientierten Bewertung (Forschung, die sich auf die Bedürfnisse eines bestimmten Implementierers in einem bestimmten Kontext konzentriert) ist es sinnvoll, ein einziges primäres Ergebnis zu haben, wenn der politische Entscheidungsträger durch Änderungen nur dieses einzigen Ergebnisses beeinflusst werden kann. Bei anderen Arten von Forschung kann der Fokus auf ein einzelnes Ergebnis durch verschiedene Hinweise in der theoretischen oder empirischen Literatur beeinflusst werden. Beispielsweise wird der Konsum der privaten Haushalte im Allgemeinen als das zuverlässigste umfragebasierte Maß für das Wohlbefinden angesehen, da er tendenziell mit vielen Ergebnissen korreliert, die den politischen Entscheidungsträgern am Herzen liegen. (Meyer und Sullivan 2003) Daher kann es für einige Interventionen (wie Geldtransfers), von denen erwartet wird, dass sie sich auf den Konsum auswirken, sowie für andere Wohlfühlmaßnahmen angebracht sein, den Konsum als einziges primäres Ergebnis zu betrachten.

Was ist, wenn Sie nicht nur ein primäres Ergebnis vorab festlegen können, sondern es auf eine sehr kleine Zahl wie zwei oder drei reduzieren können? Wie in Teil 1 erläutert, sind keine Mehrfachhypothesenkorrekturen erforderlich, wenn diese Ergebnisse unterschiedliche Entscheidungen beeinflussen. Wenn Sie als Forscher davon überzeugt sind, dass dies der Fall ist, würde ich empfehlen, diese Begründung in Ihren Voranalyseplan aufzunehmen, und hoffentlich wird dies einen Redakteur davon überzeugen, dass Sie die Korrekturen nicht vornehmen müssen.

Für Recherchen, die für ein allgemeines Publikum geschrieben wurden, sind die Normen etwas unklar. Es scheint zumindest einigermaßen akzeptiert zu sein, dass Forscher, wenn sie eine kleine Anzahl von Ergebnissen vorab spezifizieren, möglicherweise nicht auf mehrere Hypothesen testen müssen – wir sehen dies einfach die ganze Zeit in Zeitschriftenartikeln. Was jedoch als “klein” gilt, ist undefiniert.

Betrachten Sie zum Beispiel diese interessante Passage aus der jüngsten Cash-Benchmarking-Studie in Ruanda von Craig Mcintosh und Andrew Zeitlin: „Da wir die Analyse in diesem Artikel nur auf die vorab festgelegten primären und sekundären Ergebnisse beschränken, korrigieren wir die nicht Ergebnisse für Mehrfachinferenz. “ (Mcintosh und Zeitlin 2018)

Aber ist dies legitim, da es drei primäre und acht sekundäre Ergebnisse gibt? Ich würde argumentieren, dass es schwer zu sagen ist, ohne zu verstehen, wer das beabsichtigte Publikum ist und wie diese Ergebnisse verwendet werden. Die Behauptung, dass man Mehrfachinferenzen nicht korrigieren muss, weil alle Ergebnisse im Voraus festgelegt wurden, hält sicherlich kein Wasser. Was wäre, wenn es 1000 primäre Ergebnisse gäbe? Und es scheint gegen die Normen in der akademischen Literatur über bedingungslose Geldtransfers zu verstoßen, in denen im Allgemeinen eine Korrektur mehrerer Hypothesen durchgeführt wird (wie in dieser Literatur gibt es viele Ergebnisse, anhand derer man den Interventionserfolg erklären könnte, zum Beispiel Haushofer und Shapiro [2016]).

Ich habe mich an die Autoren gewandt, um mehr Farbe für diese Entscheidung zu erhalten, und hatte das Glück, diese umfassende Antwort von Craig zu erhalten:

„Der Bericht an USAID für Gikuriro ist insofern ein etwas ungewöhnliches Dokument, als der gesamte Benchmarking-Prozess eine Mehrparteienübung war, an der sehr unterschiedliche Implementierer mit ganz unterschiedlichen Theorien der Änderung beteiligt waren, um a priori zuzustimmen Was waren die Ziele der Interventionen. Wir haben das PAP als Verpflichtungsinstrument verwendet, um zu organisieren, was wir priorisieren und darüber berichten würden. Es gab mindestens drei verschiedene Gruppen mit unterschiedlichen Theorien des Wandels und unterschiedlichen Ergebnissen, die ihnen in dieser Studie am Herzen lagen. Angesichts der Tatsache, dass wir Lager für wirtschaftliches, gesundheitliches und soziales Lernen mit unterschiedlichen kausalen Theorien am Tisch hatten, stimmten wir gemeinsam zu, uns nicht anzupassen für mehrfache Rückschlüsse beim Schreiben des formellen Berichts an USAID.

Wir schreiben den Bericht jetzt als wissenschaftliche Arbeit um und führen die Anderson-FDR-Korrektur innerhalb von Ergebnisfamilien durch, um dem zu entsprechen, was wir als aktuellen akademischen Konsens vereinbaren. Obwohl es ein legitimes Argument nicht gibt, mehrere Inferenzkorrekturen vorzunehmen, wenn mehrere unterschiedliche kausale Theorien auf dem Tisch liegen (wie Cyrus Samii argumentiert hat), stimmen wir Ihnen zu, dass die derzeitige Wirtschaftskonvention konservativer ist und deshalb ist es richtig, dies zu tun, also werden wir dies in der (bald erscheinenden) wissenschaftlichen Arbeit tun. “

Fühlte mich durch diese Antwort ziemlich bestätigt, weil sie den Punkt, an dem ich versucht habe, dass Sie sorgfältig über Ihr Publikum nachdenken müssen, wirklich nach Hause bringt. Für den USAID-Bericht scheinen die Autoren bestimmte Entscheidungsträger im Auge zu haben, so dass er wie eine entscheidungsorientierte Bewertung funktioniert [SM3]. Durch die Berücksichtigung der Bedürfnisse der Entscheidungsträger konnten die Autoren zu dem Schluss kommen, dass keine Korrektur mehrerer Hypothesen erforderlich ist. Für die akademische Arbeit müssen sie jedoch ein allgemeineres Publikum berücksichtigen, also entscheiden Sie sich für die Mehrfachinferenzkorrektur. Hier gibt es viele Grautöne!

Wenn Sie sich in der zweiten Situation befinden und eine Mehrfachinferenzkorrektur vornehmen müssen, finden Sie in diesem nächsten Beitrag Anleitungen dazu.

Referenzen:

Casey, Katherine, Rachel Glennerster und Edward Miguel. „Umgestaltung von Institutionen: Belege für die Auswirkungen der Hilfe mithilfe eines Voranalyseplans.“ The Quarterly Journal of Economics 127.4 (2012): 1755–1812.

Haushofer, Johannes und Jeremy Shapiro. “Die kurzfristigen Auswirkungen bedingungsloser Geldtransfers an die Armen: experimentelle Beweise aus Kenia.” The Quarterly Journal of Economics 131.4 (2016): 1973–2042.

McIntosh, Craig und Andrew Zeitlin. “Benchmarking eines Kinderernährungsprogramms gegen Bargeld: experimentelle Beweise aus Ruanda.” Arbeitspapier, 2018 .

Meyer, Bruce D. und James X. Sullivan. Messung des Wohlergehens der Armen anhand von Einkommen und Konsum . Nr. W9760. Nationales Büro für Wirtschaftsforschung, 2003.