4.4 Jenseits einfache Experimente

Lasst uns über einfache Experimente hinausgehen. Drei Konzepte sind nützlich für reiche Experimente: Validität, Heterogenität der Behandlungseffekte und Mechanismen.

Forscher, die neu in Experimenten sind, konzentrieren sich oft auf eine sehr spezifische, knappe Frage: Läuft diese Behandlung? Zum Beispiel, ermutigt ein Anruf von einem Freiwilligen jemanden zum Wählen? Wird die Click-through-Rate durch Ändern einer Website-Schaltfläche von blau auf grün erhöht? Leider verschleiert die freie Formulierung dessen, was "funktioniert", die Tatsache, dass eng fokussierte Experimente nicht wirklich sagen, ob eine Behandlung in einem allgemeinen Sinne "funktioniert". Vielmehr fokussieren eng fokussierte Experimente eine viel spezifischere Frage: Was ist der durchschnittliche Effekt dieser spezifischen Behandlung mit dieser speziellen Implementierung für diese Teilnehmergruppe zu dieser Zeit? Ich werde Experimente nennen, die sich auf diese enge Frage einfacher Experimente konzentrieren .

Einfache Experimente können wertvolle Informationen liefern, aber sie beantworten nicht viele Fragen, die sowohl wichtig als auch interessant sind, z. B. ob es einige Menschen gibt, bei denen die Behandlung eine größere oder kleinere Wirkung hatte; ob es eine andere Behandlung gibt, die wirksamer wäre; und ob dieses Experiment sich auf breitere Sozialtheorien bezieht.

Um zu zeigen, wie wichtig es ist, über einfache Experimente hinauszugehen, betrachten wir ein analoges Feldexperiment von P. Wesley Schultz und Kollegen zum Zusammenhang zwischen sozialen Normen und Energieverbrauch (Schultz et al. 2007) . Schultz und seine Kollegen hängten an 300 Haushalten in San Marcos, Kalifornien, Türschwenker auf, und diese Türhänger lieferten verschiedene Botschaften, die Energie sparen sollten. Dann haben Schultz und Kollegen die Wirkung dieser Nachrichten auf den Stromverbrauch sowohl nach einer Woche als auch nach drei Wochen gemessen; Eine detailliertere Beschreibung des Versuchsdesigns finden Sie in Abbildung 4.3.

Abbildung 4.3: Schematische Darstellung des experimentellen Designs von Schultz et al. (2007). Das Feldexperiment umfasste den Besuch von etwa 300 Haushalten in San Marcos, Kalifornien, fünf Mal innerhalb von acht Wochen. Bei jedem Besuch nahmen die Forscher manuell eine Messung von dem Leistungsmesser des Hauses vor. Bei zwei dieser Besuche platzierten sie Türhänger an jedem Haus, um Informationen über den Energieverbrauch des Haushalts zu erhalten. Die Forschungsfrage war, wie sich der Inhalt dieser Botschaften auf den Energieverbrauch auswirken würde.

Abbildung 4.3: Schematische Darstellung des experimentellen Designs von Schultz et al. (2007) . Das Feldexperiment umfasste den Besuch von etwa 300 Haushalten in San Marcos, Kalifornien, fünf Mal innerhalb von acht Wochen. Bei jedem Besuch nahmen die Forscher manuell eine Messung von dem Leistungsmesser des Hauses vor. Bei zwei dieser Besuche platzierten sie Türhänger an jedem Haus, um Informationen über den Energieverbrauch des Haushalts zu erhalten. Die Forschungsfrage war, wie sich der Inhalt dieser Botschaften auf den Energieverbrauch auswirken würde.

Das Experiment hatte zwei Bedingungen. Im ersten Fall erhielten die Haushalte allgemeine Energiespartipps (z. B. Ventilatoren anstelle von Klimaanlagen verwenden) und Informationen über ihren Energieverbrauch im Vergleich zum durchschnittlichen Energieverbrauch in ihrer Nachbarschaft. Schultz und Kollegen nannten dies die deskriptive normative Bedingung, weil die Information über den Energieverbrauch in der Nachbarschaft Informationen über typisches Verhalten lieferte (dh eine beschreibende Norm). Als Schultz und seine Kollegen den daraus resultierenden Energieverbrauch in dieser Gruppe untersuchten, schien die Behandlung kurz- oder langfristig keine Wirkung zu haben; mit anderen Worten, die Behandlung schien nicht zu funktionieren (Abbildung 4.4).

Zum Glück haben sich Schultz und Kollegen nicht mit dieser vereinfachenden Analyse zufrieden gegeben. Vor dem Beginn des Experiments argumentierten sie, dass starke Nutzer von Elektrizität - Menschen, die über dem Durchschnitt liegen - ihren Verbrauch reduzieren könnten, und dass leichte Nutzer von Elektrizität - Menschen unter dem Durchschnitt - ihren Verbrauch tatsächlich erhöhen könnten. Als sie sich die Daten ansahen, haben sie genau das gefunden (Abbildung 4.4). Was also wie eine Behandlung aussah, die keinen Effekt hatte, war tatsächlich eine Behandlung mit zwei gegenläufigen Effekten. Dieser kontraproduktive Anstieg unter den Lichtnutzern ist ein Beispiel für einen Bumerang-Effekt , bei dem eine Behandlung den gegenteiligen Effekt haben kann als beabsichtigt.

Abbildung 4.4: Ergebnisse von Schultz et al. (2007). Panel (a) zeigt, dass die beschreibende Normbehandlung einen geschätzten durchschnittlichen Behandlungseffekt von Null hat. Die Tabelle (b) zeigt jedoch, dass dieser durchschnittliche Behandlungseffekt tatsächlich aus zwei gegenläufigen Effekten besteht. Für starke Benutzer verringerte die Behandlung die Nutzung, aber für leichte Benutzer erhöhte die Behandlung die Nutzung. Schließlich zeigt Tafel (c), dass die zweite Behandlung, die beschreibende und unterstellende Normen verwendete, ungefähr dieselbe Wirkung auf starke Nutzer hatte, aber den Bumerang-Effekt auf leichte Nutzer milderte. Nach Schultz et al. (2007).

Abbildung 4.4: Ergebnisse von Schultz et al. (2007) . Panel (a) zeigt, dass die beschreibende Normbehandlung einen geschätzten durchschnittlichen Behandlungseffekt von Null hat. Die Tabelle (b) zeigt jedoch, dass dieser durchschnittliche Behandlungseffekt tatsächlich aus zwei gegenläufigen Effekten besteht. Für starke Benutzer verringerte die Behandlung die Nutzung, aber für leichte Benutzer erhöhte die Behandlung die Nutzung. Schließlich zeigt Tafel (c), dass die zweite Behandlung, die beschreibende und unterstellende Normen verwendete, ungefähr dieselbe Wirkung auf starke Nutzer hatte, aber den Bumerang-Effekt auf leichte Nutzer abschwächte. Nach Schultz et al. (2007) .

Gleichzeitig mit Schultz und Kollegen wurde auch eine zweite Bedingung gestellt. Die Haushalte im zweiten Zustand erhielten genau die gleiche Behandlung - allgemeine Energiespartipps und Informationen über den Energieverbrauch ihrer Haushalte im Vergleich zum Durchschnitt ihrer Nachbarschaft - mit einem winzigen Zusatz: Für Menschen mit unterdurchschnittlichem Konsum fügten die Forscher Folgendes hinzu: ) und für Menschen mit überdurchschnittlichem Konsum fügten sie ein :( hinzu. Diese Emoticons sollten das auslösen, was die Forscher injunktive Normen nannten. Injunktive Normen beziehen sich auf Wahrnehmungen dessen, was allgemein anerkannt (und abgelehnt) wird, während sich beschreibende Normen auf Wahrnehmungen beziehen was wird üblicherweise getan (Reno, Cialdini, and Kallgren 1993) .

Mit diesem winzigen Emoticon reduzierten die Forscher den Bumerang-Effekt drastisch (Abbildung 4.4). Durch eine einfache Änderung - eine Veränderung, die durch eine abstrakte sozialpsychologische Theorie motiviert wurde (Cialdini, Kallgren, and Reno 1991) - konnten die Forscher ein Programm, das nicht funktionierte, in ein Programm (Cialdini, Kallgren, and Reno 1991) das funktionierte. und gleichzeitig konnten sie zum allgemeinen Verständnis beitragen, wie soziale Normen das menschliche Verhalten beeinflussen.

An diesem Punkt können Sie jedoch feststellen, dass etwas an diesem Experiment etwas anders ist. Insbesondere hat das Experiment von Schultz und Kollegen keine Kontrollgruppe, wie dies bei randomisierten kontrollierten Experimenten der Fall ist. Ein Vergleich zwischen diesem Design und dem von Restivo und van de Rijt zeigt die Unterschiede zwischen zwei großen experimentellen Designs. In den Designs zwischen den Subjekten , wie denen von Restivo und van de Rijt, gibt es eine Behandlungsgruppe und eine Kontrollgruppe. Bei den Designs innerhalb der Fächer wird dagegen das Verhalten der Teilnehmer vor und nach der Behandlung verglichen (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . In einem innerhalb des Faches durchgeführten Experiment ist es so, als ob jeder Teilnehmer als seine eigene Kontrollgruppe agiert. Die Stärke der Designs zwischen den Versuchspersonen besteht darin, dass sie Schutz gegen Störfaktoren bieten (wie ich bereits beschrieben habe), während die Stärke der Experimente innerhalb der Versuchspersonen die Genauigkeit der Schätzungen erhöht. Schließlich, um eine Idee vorwegzunehmen, die später kommen wird, wenn ich Ratschläge für die Gestaltung von digitalen Experimenten anbiete, kombiniert ein _mixed Design_ die verbesserte Präzision von Designs innerhalb von Subjekten und den Schutz gegen Interferenzen zwischen Designs von Subjekten (Abb. 4.5).

Abbildung 4.5: Drei experimentelle Designs. Standard-randomisierte kontrollierte Experimente verwenden Designs zwischen den Versuchspersonen. Ein Beispiel für ein Zwischenfachdesign ist das Experiment von Restivo und van de Rijt (2012) über Barnstars und Beiträge zu Wikipedia: Die Forscher verteilten die Teilnehmer nach dem Zufallsprinzip in Behandlungs- und Kontrollgruppen, gaben den Teilnehmern der Behandlungsgruppe einen Barnstar und verglichen die Ergebnisse für die zwei Gruppen. Die zweite Art von Design ist ein Design innerhalb der Fächer. Die beiden Experimente in Schultz und Kollegen (2007) Studie über soziale Normen und Energienutzung veranschaulichen eine inner-Themen-Design: Die Forscher verglichen den Stromverbrauch der Teilnehmer vor und nach Erhalt der Behandlung. Designs innerhalb von Lebewesen bieten eine verbesserte statistische Genauigkeit, sind jedoch offen für mögliche Störfaktoren (z. B. Wetteränderungen zwischen den Vorbehandlungs- und Behandlungsperioden) (Greenwald 1976; Charness, Gneezy und Kuhn 2012). Designs innerhalb von Subjekten werden manchmal auch Designs mit wiederholten Messungen genannt. Schließlich kombinieren gemischte Designs die verbesserte Präzision von Designs innerhalb von Subjekten und den Schutz gegen Verwechslungen zwischen Designs von Subjekten. In einem gemischten Design vergleicht ein Forscher die Veränderung der Ergebnisse für Menschen in den Behandlungs- und Kontrollgruppen. Wenn Forscher bereits Informationen zur Vorbehandlung haben, wie es in vielen digitalen Experimenten der Fall ist, sind gemischte Designs im Allgemeinen den Designs zwischen den Probanden vorzuziehen, da sie zu einer verbesserten Genauigkeit der Schätzungen führen.

Abbildung 4.5: Drei experimentelle Designs. Standard-randomisierte kontrollierte Experimente verwenden Designs zwischen den Versuchspersonen . Ein Beispiel für ein Zwischenfachdesign ist das Experiment von Restivo und van de Rijt (2012) über Barnstars und Beiträge zu Wikipedia: Die Forscher verteilten die Teilnehmer nach dem Zufallsprinzip in Behandlungs- und Kontrollgruppen, gaben den Teilnehmern der Behandlungsgruppe einen Barnstar und verglichen die Ergebnisse für die zwei Gruppen. Die zweite Art von Design ist ein Design innerhalb der Fächer . Die beiden Experimente in Schultz und Kollegen (2007) Studie über soziale Normen und Energienutzung veranschaulichen eine inner-Themen-Design: Die Forscher verglichen den Stromverbrauch der Teilnehmer vor und nach Erhalt der Behandlung. Designs innerhalb von Lebewesen bieten eine verbesserte statistische Genauigkeit, sind aber offen für mögliche Störfaktoren (z. B. Wetteränderungen zwischen den Vorbehandlungs- und Behandlungsperioden) (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . Designs innerhalb von Subjekten werden manchmal auch Designs mit wiederholten Messungen genannt. Schließlich kombinieren gemischte Designs die verbesserte Präzision von Designs innerhalb von Subjekten und den Schutz gegen Verwechslungen zwischen Designs von Subjekten. In einem gemischten Design vergleicht ein Forscher die Veränderung der Ergebnisse für Menschen in den Behandlungs- und Kontrollgruppen. Wenn Forscher bereits Informationen zur Vorbehandlung haben, wie es in vielen digitalen Experimenten der Fall ist, sind gemischte Designs im Allgemeinen den Designs zwischen den Probanden vorzuziehen, da sie zu einer verbesserten Genauigkeit der Schätzungen führen.

Insgesamt zeigen das Design und die Ergebnisse der Studie von Schultz und Kollegen (2007) , wie wichtig es ist, über einfache Experimente hinauszugehen. Glücklicherweise müssen Sie kein kreatives Genie sein, um solche Experimente zu entwerfen. Sozialwissenschaftler haben drei Konzepte entwickelt, die Sie zu umfangreicheren Experimenten führen: (1) Validität, (2) Heterogenität von Behandlungseffekten und (3) Mechanismen. Das heißt, wenn Sie diese drei Ideen berücksichtigen, während Sie Ihr Experiment entwerfen, werden Sie natürlich ein interessanteres und nützlicheres Experiment erstellen. Um diese drei Konzepte in Aktion zu veranschaulichen, werde ich eine Reihe von Follow-up-teilweise digitalen Feldexperimenten beschreiben, die auf dem eleganten Design und den aufregenden Ergebnissen von Schultz und Kollegen (2007) aufbauen. Wie Sie sehen werden, können Sie durch vorsichtigeres Design, Implementierung, Analyse und Interpretation auch über einfache Experimente hinausgehen.