4.6.2 ersetzen, verfeinern und Verkleinern

Diese Übersetzung wurde von einem Computer erstellt. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 ersetzen, verfeinern und Verkleinern

Machen Sie Ihr Experiment humaner durch Experimente mit nicht-experimentellen Studien zu ersetzen, die Verfeinerung der Behandlungen und die Verringerung der Zahl der Teilnehmer.

Der zweite Ratschlag, den ich über die Gestaltung digitaler Experimente anbieten möchten, betrifft Ethik. Da die Restivo und van de Rijt Experiment auf barnstars in Wikipedia zeigt, Kosten verringert bedeutet, dass Ethik ein zunehmend wichtiger Teil des Forschungsdesigns wird. Zusätzlich zu den ethischen Rahmenbedingungen menschlichen Themen Forschung Führung, die ich in Kapitel beschreiben werde 6, Forscher digitale Experimente entwerfen können auch auf ethische Ideen aus einer anderen Quelle ziehen: die ethischen Grundsätze bei Tieren zu führen Experimente entwickelt. Insbesondere in ihrem wegweisenden Buch Principles of Humane Experimental Technique, Russell and Burch (1959) vorgeschlagen , drei Prinzipien , die Tierforschung leiten sollten: Ersetzen, verfeinern und zu reduzieren. Ich möchte vorschlagen, dass diese drei R auch eine leicht modifizierte in verwendet werden kann form, um die Gestaltung der menschlichen Experimente führen. Bestimmtes,

Ersetzen: Ersetzen Experimente mit weniger invasive Methoden, wenn möglich,
Verfeinern Sie: Nutzen Sie die Behandlung, die sie so harmlos wie möglich zu gestalten,
Reduzieren: Reduzieren Sie die Anzahl der Teilnehmer in Ihrem Experiment so viel wie möglich

Um diese drei R Beton zu machen und zeigen, wie sie möglicherweise zu einer besseren und humaneren experimentellen Design führen kann, werde ich ein Online-Feldversuch beschreiben, die ethische Debatte erzeugt. Dann werde ich beschreiben, wie die drei R vorschlagen konkrete und praktische Änderungen am Design des Experiments.

Einer der ethisch digitalen Feldexperimente diskutiert ist "emotionale Ansteckung" , die von Adam Kramer, Jamie Gillroy und Jeffrey Hancock durchgeführt wurde (2014) . Das Experiment fand auf Facebook und wurde durch eine Mischung aus wissenschaftlichen und praktischen Fragen motiviert. Zu der Zeit, die dominante Art und Weise, die Benutzer mit Facebook interagierten war die News Feed, ein algorithmisch kuratierte Reihe von Facebook-Status-Updates von Facebook-Freunde des Nutzers. Einige Kritiker von Facebook hatte vorgeschlagen, dass, weil die News Feed überwiegend positiv hat Beiträge-Freunde zeigen ihre neuesten Party-es könnte Benutzer führen, traurig zu sein, weil ihr Leben im Vergleich weniger spannend zu sein scheinen. Auf der anderen Seite, vielleicht ist die Wirkung genau das Gegenteil; vielleicht sehen Ihr Freund eine gute Zeit würden Sie sich fühlen glücklich zu machen? Um diese konkurrierende Hypothese und zu adressieren unser Verständnis zu fördern, wie eine Person Gefühle von ihren Freunden "betroffen sind Emotionen-Kramer und Kollegen lief ein Experiment. Die Forscher platziert über 700.000 Anwender in vier Gruppen für eine Woche: eine "Negativität reduziert" Gruppe, für die Beiträge mit negativen Wörtern (zB traurig) wurden aus erscheinen die News Feed zufällig blockiert; ein "Positivität reduziert" Gruppe, für die Beiträge mit positiven Worte (zB glücklich) zufällig blockiert; und zwei Kontrollgruppen. In der Kontrollgruppe für die "Negativität reduziert" Gruppe wurden Beiträge in der gleichen Rate wie die "Negativität reduziert" Gruppe, aber ohne Rücksicht auf den emotionalen Inhalt zufällig blockiert. Die Kontrollgruppe für die "Positivität reduziert" Gruppe wurde in einer parallelen Weise aufgebaut. Das Design dieses Experiment veranschaulicht, dass die entsprechende Kontrollgruppe nicht immer eine ohne Veränderungen. Vielmehr manchmal erhält die Kontrollgruppe, eine Behandlung, um die genaue Vergleich zu schaffen, dass eine Forschungsfrage erfordert. In allen Fällen waren die Beiträge, die von der News Feed blockiert waren noch für die Nutzer durch andere Teile der Facebook-Website.

Kramer und seine Kollegen festgestellt, dass für die Teilnehmer der Positivität Zustand reduziert, der Anteil der positiven Wörter in ihre Status-Updates verringert und der Anteil der negativen Worte erhöht. Auf der anderen Seite, für die Teilnehmer der Negativität reduziert Zustand, der Prozentsatz der positiven Worten erhöht und der Anteil der negativen Worte verringert (Abbildung 4.23). Allerdings waren diese Effekte recht klein: der Unterschied in der positiven und negativen Worte zwischen den Behandlungen und Kontrollen war etwa 1 von 1.000 Wörtern.

Abbildung 4.23: Der Nachweis der emotionalen Ansteckung (Kramer, Guillory und Hancock 2014). Prozentsatz der positiven Worte und negative Worte von experimentellen Zustand. Die Balken stellen die Standardfehler geschätzt.

Abbildung 4.23: Der Nachweis der emotionalen Ansteckung (Kramer, Guillory, and Hancock 2014) . Prozentsatz der positiven Worte und negative Worte von experimentellen Zustand. Die Balken stellen die Standardfehler geschätzt.

Ich habe am Ende des Kapitels in der weiteren Leseabschnitt eine Diskussion der wissenschaftlichen Aspekte dieses Experiments, doch leider dieses Experiment ist am bekanntesten für die Erzeugung ethischen Debatte. Nur wenige Tage nach diesem Papier in den Proceedings der National Academy of Sciences veröffentlicht wurde, gab es einen enormen Aufschrei von beiden Forschern und der Presse. Outrage um das Papier konzentriert sich auf zwei Schwerpunkte: 1) Teilnehmer keine Zustimmung über die Standardfacebook Terms-of-Service für eine Behandlung vorsah, dass einige Gedanken Schaden für die Teilnehmer verursachen könnten und 2) die Studie von Drittanbietern nicht hatte ethischen erfahren Bewertung (Grimmelmann 2015) . Die ethischen Fragen in dieser Debatte angesprochen verursacht der Zeitschrift , um schnell eine seltene "redaktionelle Ausdruck der Besorgnis" über die Ethik und ethischen Prüfungsprozess für die Forschung zu veröffentlichen (Verma 2014) . In den folgenden Jahren hat sich das Experiment fortgesetzt eine Quelle intensiver Debatten und Meinungsverschiedenheiten zu sein, und diese Uneinigkeit in den Schatten den unbeabsichtigten Effekt gehabt haben können viele andere Experimente des Fahrens, die von Unternehmen durchgeführt werden (Meyer 2014) .

Da Hintergrund über emotionale Ansteckung, würde ich jetzt zeigen, daß die 3 R kann für echte Studien konkrete, praktische Verbesserungen vorschlagen (was auch immer Sie persönlich über die Ethik von diesem speziellen Experiment denken könnte). Der erste R ersetzen: Forscher sollten Experimente mit weniger invasiven und riskanten Techniken zu ersetzen suchen, wenn möglich. Zum Beispiel, anstatt ein Experiment ausgeführt wird , haben die Forscher konnten ein natürliches Experiment genutzt werden . Wie in Kapitel 2 beschrieben, sind natürliche Experimente Situationen, in denen etwas passiert in der Welt, die die zufällige Zuordnung von Behandlungen annähert (zB eine Lotterie zu entscheiden, wer zum Militär eingezogen wird). Der Vorteil eines natürlichen Experiment ist, dass die Forscher nicht Behandlungen zu liefern hat; die Umgebung für Sie tut das. Mit anderen Worten, mit einem natürlichen Experiment hätten die Forscher experimentell gebraucht haben, um Menschen News Feeds zu manipulieren.

In der Tat, fast gleichzeitig mit dem emotionale Ansteckung Experiment, Coviello et al. (2014) wurde zu nutzen , was eine emotionale Ansteckung natürliches Experiment bezeichnet werden könnte. Ihr Ansatz, die eine Technik namens instrumentalen Variablen verwendet, ist ein wenig kompliziert, wenn Sie es noch nie zuvor gesehen. Also, um zu erklären, warum es nötig war, lassen Sie uns, um es aufzubauen. Die erste Idee, dass einige Forscher haben könnte, um emotionale Ansteckung untersuchen wäre, Ihre Beiträge an den Tagen zu vergleichen, wo Sie Ihre News Feed an den Tagen, Ihre Beiträge sehr positiv war, wo Ihre News Feed sehr negativ war. Dieser Ansatz wäre schön, wenn das Ziel nur war es, den emotionalen Inhalt Ihrer Beiträge zu prognostizieren, aber dieser Ansatz ist problematisch, wenn das Ziel, den kausalen Effekt der News Feed auf Ihre Beiträge zu studieren ist. Um das Problem mit diesem Entwurf zu sehen, betrachten Danksagung. In den USA, positive Beiträge Spike und negative Beiträge Senkblei am Thanksgiving. So wurde am Thanksgiving, könnten die Forscher sehen, dass Ihre News Feed sehr positiv war und dass man auch positive Dinge geschrieben. Aber Ihre positive Beiträge Danksagung nicht durch den Inhalt Ihrer News Feed verursacht worden sein könnte. Stattdessen, um den kausalen Effekt Forscher etwas zu schätzen müssen, die den Inhalt der News Feed ändert ohne Ihre Gefühle direkt zu verändern. Glücklicherweise gibt es etwas wie das geschieht die ganze Zeit: das Wetter.

Coviello und fand Kollegen, dass ein regnerischer Tag in einer Stadt wird im Durchschnitt des Anteils der Beiträge verringern, die um etwa 1 Prozentpunkt positiv sind und der Anteil der Beiträge zu erhöhen, die um etwa 1 Prozentpunkt negativ sind. Dann Coviello und Kollegen nutzten diese Tatsache emotionale Ansteckung zu studieren, ohne die Notwendigkeit, experimentell niemandes News Feed manipulieren. Im Wesentlichen, was sie getan haben, ist Maß, wie Sie Ihre Beiträge durch das Wetter in den Städten betroffen waren, wo Ihre Freunde leben. Um zu sehen, warum es sinnvoll ist, sich vorstellen, dass Sie in New York City leben, und Sie haben einen Freund, der in Seattle lebt. Nun stell dir vor, dass eines Tages regnet es in Seattle beginnt. Diese regen in Seattle wird nicht direkt auf Ihre Stimmung beeinflussen, aber es wird Ihre News Feed dazu führen, dass weniger positiv und negativ wegen Ihres Freundes Beiträge. So manipuliert der regen in Seattle zufällig Ihre News Feed. Wenn Sie diese Intuition in eine verlässliche statistische Verfahren ist kompliziert (und die genaue Ansatz von Coviello und Kollegen ist ein bisschen Nicht-Standard), so habe ich eine ausführlichere Diskussion in der weiteren Leseabschnitt setzen. Die wichtigste Sache zu erinnern, über Coviello und Kollegen Ansatz ist, dass es ihnen ermöglichte, ohne die Notwendigkeit, emotionale Ansteckung zu studieren, ein Experiment zu führen, die potenziell Beteiligten schaden könnte, und es kann sein, dass in vielen anderen Einstellungen, die Sie Versuche mit anderen ersetzen kann Techniken.

An zweiter Stelle in den 3 Rs verfeinern: Forscher suchen sollten ihre Behandlungen, um weiter zu verfeinern den kleinsten Schaden möglich verursachen. Zum Beispiel, anstatt Inhalte blockieren, die entweder positiv oder negativ war, haben die Forscher konnten Inhalte verstärkt, die positiv oder negativ war. Diese Steigerung der Entwurf hätte den emotionalen Gehalt der Teilnehmer Nachrichten Feeds geändert, aber es wäre eine der Sorge haben angesprochen, dass die Kritiker zum Ausdruck: dass die Experimente Teilnehmer verursacht haben könnte wichtige Informationen in ihren News Feed zu verpassen. Mit dem Design von Kramer und Kollegen verwendet, dass eine Nachricht wichtig ist, ist so wahrscheinlich wie ein blockiert werden, die nicht der Fall ist. Allerdings mit einer Steigerung der Konstruktion, die Nachrichten, die diejenigen, die weniger wichtig sind wäre verschoben werden würde.

Schließlich ist die dritte R Reduce: Forscher sollten die Anzahl der Teilnehmer in ihrem Experiment, wenn möglich zu reduzieren suchen. In der Vergangenheit geschah diese Reduktion natürlich, weil die variablen Kosten für analoge Experimente hoch war, die Forschung ermutigt, ihre Gestaltung und Analyse zu optimieren. Wenn jedoch Null variable Kostendaten besteht, Forscher keinen Kostenbeschränkung auf der Größe ihres Experiments stellen, und dies hat das Potenzial, unnötig große Experimente zu führen.

Zum Beispiel Kramer und Kollegen haben könnte Vorbehandlung Informationen über ihre Teilnehmer-wie Vorbehandlung Buchung verwendet Verhalten zu ihrer Analyse effizienter zu gestalten. Genauer gesagt, eher als der Anteil der positiven Wörter in den Behandlungs- und Kontrollbedingungen zu vergleichen, Kramer und Kollegen die Änderung des Anteils der positive Worte zwischen Bedingungen verglichen haben könnte; ein Ansatz oft Differenz-in-Differenzen genannt und die eng mit dem gemischten Design bezogen, die ich früher in diesem Kapitel beschrieben (Abbildung 4.5). und dann verglichen, um die Änderung Partituren der Teilnehmer an den Behandlungs- und Kontrollbedingungen - das heißt, für jeden Teilnehmer haben die Forscher könnte eine Änderung Score (Vorbehandlung Verhalten Nachbehandlung Verhalten) erstellt. Diese Differenz-in-Differenzen Ansatz ist statistisch leistungsfähig, was bedeutet, dass die Forscher die gleiche statistische Sicherheit unter Verwendung viel kleinere Proben erreichen. Mit anderen Worten, durch die Teilnehmer nicht wie "Widgets" zu behandeln, können die Forscher oft genauere Schätzungen zu bekommen.

Ohne die Rohdaten aufweist, ist es schwierig, genau zu wissen, wie viel effizienter eine Differenz-in-Differenzen Ansatz in diesem Fall gewesen wäre. Aber Deng et al. (2013) berichtet , dass in drei Online - Experimente auf der Suchmaschine Bing sie in der Lage waren , um etwa 50% der Varianz ihrer Schätzungen zu reduzieren, und ähnliche Ergebnisse wurden für einige Online - Experimente bei Netflix berichtet (Xie and Aurisset 2016) . Diese 50% Varianzreduktion bedeutet, dass die emotionale Ansteckung Forscher waren in der Lage könnten ihre Probe in zwei Hälften geschnitten, wenn sie eine etwas andere Analyseverfahren verwendet hatte. Mit anderen Worten, mit einer kleinen Änderung in der Analyse, könnten 350.000 Menschen die Teilnahme am Experiment erspart geblieben.

unnötig An dieser Stelle werden Sie vielleicht fragen, warum Forscher kümmern sollte, wenn 350.000 Menschen in emotionale Ansteckung waren. Es gibt zwei besondere Merkmale der emotionale Ansteckung, die Sorge mit übermäßiger Größe angemessen ist, und diese Eigenschaften werden von vielen digitalen Feldversuche geteilt: 1) gibt es über die Ungewissheit, ob das Experiment Schaden zumindest einige Teilnehmer verursachen und 2) die Teilnahme war nicht freiwillig. In Experimenten mit diesen beiden Eigenschaften scheint es ratsam, die Experimente so klein wie möglich zu halten.

Abschließend werden die drei R's-Ersetzen, verfeinern und Prinzipien Reduce-schaffen, die Forscher bauen Ethik in ihre experimentellen Designs helfen können. Natürlich stellt jede dieser möglichen Änderungen emotionale Ansteckung Kompromisse. Zum Beispiel Beweise aus natürlichen Experimente ist nicht immer so sauber wie Evidenz aus randomisierten Experimenten und Steigerung könnte als Block mehr logistisch schwierig umzusetzen gewesen. So war der Zweck, diese Änderungen vorzuschlagen nicht auf die Entscheidungen anderer Forscher zweiten erraten. Vielmehr war es zu zeigen, wie die drei R in einer realistischen Situation angewendet werden könnte.