4.6.2 Erstellen Sie Ethik in Ihrem Design: ersetzen, verfeinern und reduzieren

Machen Sie Ihr Experiment humaner durch Experimente mit nicht-experimentellen Studien zu ersetzen, die Verfeinerung der Behandlungen und die Verringerung der Zahl der Teilnehmer.

Der zweite Ratschlag, den ich zum Entwurf digitaler Experimente geben möchte, betrifft die Ethik. Wie das Restivo-und-Van-de-Rijt-Experiment auf Barnstars in Wikipedia zeigt, bedeutet eine Senkung der Kosten, dass Ethik ein zunehmend wichtiger Teil des Forschungsdesigns wird. Zusätzlich zu den in Kapitel 6 beschriebenen ethischen Rahmenbedingungen für die Forschung mit menschlichen Probanden können Forscher, die digitale Experimente entwerfen, auch auf ethische Ideen aus einer anderen Quelle zurückgreifen: den ethischen Prinzipien, die entwickelt wurden, um Experimente mit Tieren zu leiten. Insbesondere in ihrem bahnbrechenden Buch Principles of Humane Experimental Technique haben Russell and Burch (1959) drei Prinzipien vorgeschlagen, die die Tierforschung leiten sollten: ersetzen, verfeinern und reduzieren. Ich möchte vorschlagen, dass diese drei Rs auch in einer leicht modifizierten Form verwendet werden können, um das Design von menschlichen Experimenten zu leiten. Bestimmtes,

  • Ersetzen: Ersetzen Sie nach Möglichkeit Experimente durch weniger invasive Methoden.
  • Verfeinern: Verfeinern Sie die Behandlung, um sie so unschädlich wie möglich zu machen.
  • Reduzieren: Verringern Sie die Anzahl der Teilnehmer an Ihrem Experiment so weit wie möglich.

Um diese drei Rs konkret zu machen und zu zeigen, wie sie potenziell zu einem besseren und humaneren experimentellen Design führen können, beschreibe ich ein Online-Feld-Experiment, das ethische Debatten hervorrief. Dann werde ich beschreiben, wie die drei R konkrete und praktische Änderungen am Design des Experiments vorschlagen.

Eines der am meisten ethisch diskutierten digitalen Feldexperimente wurde von Adam Kramer, Jamie Guillroy und Jeffrey Hancock (2014) und trägt den Namen "Emotional Contagion". Das Experiment fand auf Facebook statt und war von einer Mischung aus wissenschaftlichen und wissenschaftlichen Experimenten motiviert praktische Fragen. Zu dieser Zeit war der Newsfeed, eine algorithmisch kuratierte Sammlung von Facebook-Statusupdates von den Facebook-Freunden eines Nutzers, der dominierende Weg, mit dem Nutzer mit Facebook interagierten. Einige Kritiker von Facebook hatten vorgeschlagen, dass, weil der Nachrichten-Feed hauptsächlich positive Posts hat - Freunde, die ihre letzte Party vorführen - es könnte dazu führen, dass Benutzer traurig sind, weil ihr Leben im Vergleich weniger aufregend schien. Auf der anderen Seite, vielleicht ist der Effekt genau das Gegenteil: vielleicht zu sehen, dass dein Freund eine gute Zeit hat, würde dich glücklich machen. Um diese konkurrierenden Hypothesen anzugehen - und um unser Verständnis darüber zu verbessern, wie die Emotionen einer Person von den Emotionen ihrer Freunde beeinflusst werden - haben Kramer und Kollegen ein Experiment durchgeführt. Sie platzierten etwa 700.000 Benutzer für eine Woche in vier Gruppen: eine "Negativitätsreduktion" -Gruppe, für die Posts mit negativen Wörtern (zB "traurig") nach dem Zufallsprinzip nicht im Nachrichten-Feed erscheinen konnten; eine "positivitätsreduzierte" Gruppe, für die Beiträge mit positiven Wörtern (z. B. "glücklich") zufällig blockiert wurden; und zwei Kontrollgruppen. In der Kontrollgruppe für die Gruppe der "Negativitätsreduktion" wurden die Posts statistisch mit der gleichen Rate wie die Gruppe der "Negativitätsreduktion" blockiert, jedoch ohne Berücksichtigung des emotionalen Inhalts. Die Kontrollgruppe für die "positivitätsreduzierte" Gruppe wurde parallel konstruiert. Der Entwurf dieses Experiments veranschaulicht, dass die geeignete Kontrollgruppe nicht immer eine ohne Änderungen ist. Vielmehr erhält die Kontrollgruppe manchmal eine Behandlung, um den genauen Vergleich zu erstellen, den eine Forschungsfrage erfordert. In allen Fällen waren die Posts, die vom News-Feed blockiert wurden, weiterhin für Nutzer über andere Teile der Facebook-Website verfügbar.

Kramer und seine Kollegen fanden heraus, dass für Teilnehmer an der Positivitätsreduktion der Prozentsatz positiver Wörter in ihren Statusaktualisierungen abnahm und der Prozentsatz negativer Wörter anstieg. Auf der anderen Seite stieg der Prozentsatz der positiven Wörter für die Teilnehmer des negativitätsreduzierten Zustands und der der negativen Wörter (Abbildung 4.24). Diese Effekte waren jedoch ziemlich gering: Der Unterschied zwischen positiven und negativen Wörtern zwischen Behandlungen und Kontrollen betrug etwa 1 zu 1.000 Wörtern.

Abbildung 4.24: Hinweise auf eine emotionale Ansteckung (Kramer, Guillory und Hancock 2014). Teilnehmer am negativitätsreduzierten Zustand verwendeten weniger negative Wörter und positivere Wörter und Teilnehmer am positivitätsreduzierten Zustand verwendeten mehr negative Wörter und weniger positive Wörter. Balken repräsentieren geschätzte Standardfehler. Nach Kramer, Guillory und Hancock (2014), Abbildung 1.

Abbildung 4.24: Hinweise auf eine emotionale Ansteckung (Kramer, Guillory, and Hancock 2014) . Teilnehmer am negativitätsreduzierten Zustand verwendeten weniger negative Wörter und positivere Wörter und Teilnehmer am positivitätsreduzierten Zustand verwendeten mehr negative Wörter und weniger positive Wörter. Balken repräsentieren geschätzte Standardfehler. Nach Kramer, Guillory, and Hancock (2014) , Abbildung 1.

Bevor ich die ethischen Probleme dieses Experiments diskutiere, möchte ich drei wissenschaftliche Probleme beschreiben, die einige der Ideen aus dem vorherigen Kapitel verwenden. Erstens ist nicht klar, wie sich die tatsächlichen Details des Experiments mit den theoretischen Behauptungen verbinden; mit anderen Worten, es gibt Fragen zur Konstruktvalidität. Es ist nicht klar, dass die positiven und negativen Wortzahlen tatsächlich ein guter Indikator für den emotionalen Zustand der Teilnehmer sind, weil (1) es nicht klar ist, dass die von den Menschen geposteten Wörter ein guter Indikator für ihre Emotionen sind und (2) nicht klar, dass die von den Forschern verwendete spezielle Stimmungsanalysetechnik zuverlässig auf Emotionen schließen lässt (Beasley and Mason 2015; Panger 2016) . Mit anderen Worten, es könnte ein schlechtes Maß für ein vorgespanntes Signal geben. Zweitens sagt uns das Design und die Analyse des Experiments nichts darüber aus, wer am meisten betroffen war (dh es gibt keine Analyse der Heterogenität der Behandlungseffekte) und was der Mechanismus sein könnte. In diesem Fall hatten die Forscher viele Informationen über die Teilnehmer, aber sie wurden im Wesentlichen als Widgets in der Analyse behandelt. Drittens war die Effektgröße in diesem Experiment sehr klein; Der Unterschied zwischen den Behandlungs- und Kontrollbedingungen liegt bei 1 zu 1.000 Wörtern. In ihrem Artikel vertreten Kramer und Kollegen den Standpunkt, dass ein Effekt dieser Größe wichtig ist, da Hunderte von Millionen Menschen jeden Tag auf ihren News Feed zugreifen. Mit anderen Worten, sie argumentieren, dass, selbst wenn die Auswirkungen für jede Person klein sind, sie insgesamt groß sind. Selbst wenn Sie dieses Argument akzeptieren würden, ist es noch nicht klar, ob ein Effekt dieser Größe für die allgemeinere wissenschaftliche Frage nach der Verbreitung von Emotionen wichtig ist (Prentice and Miller 1992) .

Zusätzlich zu diesen wissenschaftlichen Fragen gab es wenige Tage nach der Veröffentlichung dieses Dokuments in den Proceedings der National Academy of Sciences sowohl von Forschern als auch von der Presse einen enormen Aufschrei (ich werde die Argumente in dieser Debatte in Kapitel 6 ausführlicher beschreiben) ). Die in dieser Debatte aufgeworfenen Fragen führten dazu, dass die Zeitschrift einen seltenen "redaktionellen Ausdruck von Besorgnis" über die Ethik und den ethischen Überprüfungsprozess für die Forschung veröffentlichte (Verma 2014) .

Angesichts dieses Hintergrunds über emotionale Ansteckung möchte ich nun zeigen, dass die drei R konkrete praktische Verbesserungen für echte Studien vorschlagen können (was auch immer Sie persönlich über die Ethik dieses speziellen Experiments denken mögen). Die erste R ist zu ersetzen : Forscher sollten versuchen, Experimente mit weniger invasiven und riskanten Techniken zu ersetzen, wenn möglich. Zum Beispiel könnten die Forscher, anstatt ein randomisiertes kontrolliertes Experiment durchzuführen, ein natürliches Experiment ausgenützt haben. Wie in Kapitel 2 beschrieben, sind natürliche Experimente Situationen, in denen etwas in der Welt geschieht, das der zufälligen Zuweisung von Behandlungen entspricht (z. B. eine Lotterie, um zu entscheiden, wer ins Militär eingezogen wird). Der ethische Vorteil eines natürlichen Experiments ist, dass der Forscher keine Behandlungen durchführen muss: die Umwelt tut das für Sie. Zum Beispiel, fast gleichzeitig mit dem Emotionalen Ansteckungsexperiment, Lorenzo Coviello et al. (2014) nutzten das, was man als natürliches Experiment der emotionalen Ansteckung bezeichnen könnte. Coviello und seine Kollegen entdeckten, dass Menschen an regnerischen Tagen mehr negative Wörter und weniger positive Wörter posten. Durch die zufällige Variation des Wetters konnten sie daher die Auswirkungen von Änderungen im Newsfeed untersuchen, ohne überhaupt eingreifen zu müssen. Es war, als würde das Wetter ihr Experiment für sie durchführen. Die Einzelheiten ihrer Vorgehensweise sind ein wenig kompliziert, aber der wichtigste Punkt für unsere Zwecke ist, dass Coviello und seine Kollegen mithilfe eines natürlichen Experiments etwas über die Verbreitung von Emotionen lernen konnten, ohne ein eigenes Experiment durchführen zu müssen.

Das zweite der drei Rs ist verfeinert : Forscher sollten versuchen, ihre Behandlungen zu verfeinern, um sie so unschädlich wie möglich zu machen. Anstatt beispielsweise Inhalte zu blockieren, die positiv oder negativ waren, konnten die Forscher positive oder negative Inhalte steigern. Dieses aufwertende Design hätte den emotionalen Inhalt der Newsfeeds der Teilnehmer verändert, aber es hätte eines der Bedenken angesprochen, die Kritiker äußerten: dass die Experimente dazu geführt hätten, dass die Teilnehmer wichtige Informationen in ihrem News-Feed verpasst hätten. Mit dem von Kramer und Kollegen verwendeten Design wird eine wichtige Nachricht genauso blockiert wie eine andere. Mit einem aufsteigenden Design würden jedoch die Botschaften, die verdrängt werden würden, diejenigen sein, die weniger wichtig sind.

Schließlich ist das dritte R reduziert : Forscher sollten versuchen, die Anzahl der Teilnehmer an ihrem Experiment auf das Minimum zu reduzieren, das zur Erreichung ihres wissenschaftlichen Ziels erforderlich ist. In analogen Experimenten geschah dies natürlich aufgrund der hohen variablen Kosten der Teilnehmer. Aber in digitalen Experimenten, insbesondere solchen, bei denen keine variablen Kosten anfallen, sehen sich Forscher nicht mit Kostenbeschränkungen für die Größe ihres Experiments konfrontiert, und dies hat das Potenzial, zu unnötig großen Experimenten zu führen.

Zum Beispiel könnten Kramer und Kollegen Vorbehandlungsinformationen über ihre Teilnehmer verwendet haben - wie zum Beispiel das Buchungsverhalten vor der Behandlung -, um ihre Analyse effizienter zu machen. Genauer gesagt, Kramer und seine Kollegen hätten, anstatt den Anteil positiver Wörter in den Behandlungs- und Kontrollbedingungen zu vergleichen, die Veränderung des Anteils positiver Wörter zwischen den Bedingungen vergleichen können; Ein Ansatz, der manchmal als gemischtes Design bezeichnet wird (Abbildung 4.5) und manchmal Differenz-in-Differenzen-Schätzer genannt wird. Das heißt, die Forscher hätten für jeden Teilnehmer einen Change-Score (Verhalten nach der Behandlung \(-\) Vorbehandlungsverhalten \(-\) erstellen und dann die Veränderungswerte der Teilnehmer an den Behandlungs- und Kontrollbedingungen vergleichen können. Dieser Differenz-in-Differenzen-Ansatz ist statistisch effizienter, was bedeutet, dass Forscher die gleiche statistische Sicherheit erreichen können, indem sie viel kleinere Stichproben verwenden.

Ohne die Rohdaten zu haben, ist es schwierig genau zu wissen, wie viel effizienter ein Differenz-in-Differenzen-Schätzer in diesem Fall gewesen wäre. Aber wir können andere verwandte Experimente für eine grobe Idee betrachten. Deng et al. (2013) berichteten, dass sie mithilfe einer Form des Differenz-in-Differenzen-Schätzers die Varianz ihrer Schätzungen in drei verschiedenen Online-Experimenten um etwa 50% reduzieren konnten; Ähnliche Ergebnisse wurden von Xie and Aurisset (2016) . Diese 50% ige Varianzreduktion bedeutet, dass die Emotional Contagion-Forscher ihre Probe möglicherweise halbiert hätten, wenn sie eine etwas andere Analysemethode verwendet hätten. Mit anderen Worten, mit einer winzigen Änderung in der Analyse könnten 350.000 Menschen von der Teilnahme am Experiment verschont bleiben.

An dieser Stelle fragen Sie sich vielleicht, warum Forscher sich darum kümmern sollten, ob sich 350.000 Menschen unnötig in emotionaler Ansteckung befinden. Es gibt zwei besondere Merkmale der emotionalen Ansteckung, die das Problem der exzessiven Größe angemessen erscheinen lassen, und diese Merkmale werden von vielen digitalen Feldexperimenten geteilt: (1) Es besteht Unsicherheit darüber, ob das Experiment zumindest einigen Teilnehmern Schaden zufügt und (2) Teilhabe war nicht freiwillig. Es scheint sinnvoll zu versuchen, Experimente, die diese Merkmale aufweisen, so klein wie möglich zu halten.

Der Wunsch, die Größe Ihres Experiments zu reduzieren, bedeutet nicht, dass Sie keine großen, keine variablen Kosten aufweisenden Experimente durchführen sollten. Es bedeutet nur, dass Ihre Experimente nicht größer sein sollten, als Sie für Ihr wissenschaftliches Ziel benötigen. Eine wichtige Methode, um sicherzustellen, dass ein Experiment eine geeignete Größe hat, ist die Durchführung einer Leistungsanalyse (Cohen 1988) . Im analogen Zeitalter führten die Forscher im Allgemeinen eine Power-Analyse durch, um sicherzustellen, dass ihre Studie nicht zu klein war (dh zu wenig Energie). Jetzt sollten die Forscher jedoch eine Power-Analyse durchführen, um sicherzustellen, dass ihre Studie nicht zu groß ist (dh überlastet).

Zusammenfassend lässt sich sagen, dass die drei Rs Prinzipien ersetzen, verfeinern und reduzieren, die den Forschern helfen können, Ethik in ihre experimentellen Designs zu integrieren. Natürlich führt jede dieser möglichen Veränderungen der emotionalen Ansteckung zu Kompromissen. Zum Beispiel ist die Evidenz aus natürlichen Experimenten nicht immer so sauber wie die aus randomisierten Experimenten, und die Steigerung des Inhalts könnte logistisch schwieriger zu implementieren sein als die Blockierung von Inhalten. Der Zweck, diese Veränderungen vorzuschlagen, bestand also nicht darin, die Entscheidungen anderer Forscher zu hinterfragen. Es sollte vielmehr gezeigt werden, wie die drei R in einer realistischen Situation angewendet werden können. In der Tat, das Thema Trade-offs taucht im Forschungsdesign immer wieder auf, und im digitalen Zeitalter werden diese Kompromisse zunehmend ethische Überlegungen beinhalten. Später, in Kapitel 6, werde ich einige Prinzipien und ethische Rahmenbedingungen anbieten, die den Forschern helfen, diese Kompromisse zu verstehen und zu diskutieren.