4.4.1 Gültigkeit

Gültigkeit bezieht sich auf , wie sehr die Ergebnisse eines Experiments unterstützen eine allgemeine Schlussfolgerung.

Kein Experiment ist perfekt, und Forscher haben ein umfangreiches Vokabular entwickelt, um mögliche Probleme zu beschreiben. Die Gültigkeit bezieht sich auf das Ausmaß, in dem die Ergebnisse eines bestimmten Experiments eine allgemeinere Schlussfolgerung unterstützen. Sozialwissenschaftler fanden es hilfreich, die Validität in vier Haupttypen zu unterteilen: statistische Schlussfolgerungsvalidität, interne Validität, Konstruktvalidität und externe Validität (Shadish, Cook, and Campbell 2001, chap. 2) . Durch die Beherrschung dieser Konzepte erhalten Sie eine mentale Checkliste, mit der Sie das Design und die Analyse eines Experiments kritisieren und verbessern können, und es wird Ihnen dabei helfen, mit anderen Forschern zu kommunizieren.

Die statistische Schlussvalidität konzentriert sich darauf, ob die statistische Analyse des Experiments korrekt durchgeführt wurde. Im Kontext von Schultz et al. (2007) könnte sich eine solche Frage darauf konzentrieren, ob sie ihre \(p\) -Werte korrekt berechnet haben. Die statistischen Grundlagen für die Gestaltung und Analyse von Experimenten liegen außerhalb des Rahmens dieses Buches, haben sich aber im digitalen Zeitalter nicht grundlegend geändert. Was sich jedoch geändert hat, ist, dass die Datenumgebung in digitalen Experimenten neue Möglichkeiten geschaffen hat, wie zum Beispiel die Verwendung von maschinellen Lernmethoden, um die Heterogenität von Behandlungseffekten abzuschätzen (Imai and Ratkovic 2013) .

Die interne Validität hängt davon ab, ob die experimentellen Verfahren korrekt durchgeführt wurden. Zurück zum Experiment von Schultz et al. (2007) könnten sich Fragen zur internen Validität auf die Randomisierung, die Durchführung der Behandlung und die Messung der Ergebnisse konzentrieren. Zum Beispiel könnten Sie besorgt sein, dass die Forschungsassistenten die Stromzähler nicht zuverlässig gelesen haben. In der Tat waren Schultz und Kollegen besorgt über dieses Problem, und sie hatten eine Probe von Metern zweimal gelesen; Zum Glück waren die Ergebnisse im Wesentlichen identisch. Das Experiment von Schultz und Kollegen scheint allgemein eine hohe interne Validität zu haben, aber das ist nicht immer der Fall: Komplexe Feld- und Online-Experimente laufen oft mit Problemen zusammen, die den richtigen Menschen die richtige Behandlung liefern und die Ergebnisse für alle messen. Glücklicherweise kann das digitale Zeitalter dazu beitragen, die Bedenken hinsichtlich der internen Validität zu verringern, da es jetzt einfacher ist, sicherzustellen, dass die Behandlung an diejenigen weitergegeben wird, die es erhalten sollen, und die Ergebnisse für alle Teilnehmer zu messen.

Die Konstruktvalidität dreht sich um die Übereinstimmung zwischen den Daten und den theoretischen Konstrukten. Wie in Kapitel 2 besprochen, sind Konstrukte abstrakte Konzepte, von denen Sozialwissenschaftler ausgehen. Leider haben diese abstrakten Konzepte nicht immer klare Definitionen und Messungen. Zurück zu Schultz et al. (2007) fordert die Behauptung, dass unterlassende soziale Normen den Stromverbrauch senken könnten, Forscher dazu, eine Behandlung zu entwickeln, die "unterlassende soziale Normen" (z. B. ein Emoticon) manipuliert und den "Stromverbrauch" misst. In analogen Experimenten entwickelten viele Forscher ihre eigenen Behandlungen und maßen ihre eigenen Ergebnisse. Dieser Ansatz stellt sicher, dass die Experimente so weit wie möglich mit den abstrakten Konstrukten übereinstimmen, die untersucht werden. In digitalen Experimenten, bei denen Forscher mit Unternehmen oder Regierungen zusammenarbeiten, um Behandlungen zu liefern und immer verfügbare Datensysteme zu verwenden, um die Ergebnisse zu messen, kann die Übereinstimmung zwischen dem Experiment und den theoretischen Konstrukten weniger eng sein. Daher erwarte ich, dass die Konstruktvalidität in digitalen Experimenten ein größeres Problem darstellt als in analogen Experimenten.

Schließlich geht es bei der externen Validität darum, ob die Ergebnisse dieses Experiments auf andere Situationen verallgemeinert werden können. Zurück zu Schultz et al. (2007) könnte man sich die Frage stellen, ob diese Idee - die Information der Menschen über ihren Energieverbrauch im Verhältnis zu Gleichaltrigen und ein Signal von Unterlassungsnormen (z. B. ein Emoticon) - den Energieverbrauch reduzieren würde, wenn dies auf andere Weise geschieht in einer anderen Einstellung. Für am besten konzipierte und gut durchgeführte Experimente sind Bedenken hinsichtlich der externen Validität am schwierigsten zu lösen. In der Vergangenheit waren diese Debatten über die externe Validität häufig nicht mehr als eine Gruppe von Menschen, die sich in einem Raum versammelten und sich vorstellten, was passiert wäre, wenn die Verfahren auf andere Weise oder an einem anderen Ort oder mit unterschiedlichen Teilnehmern durchgeführt worden wären . Glücklicherweise ermöglicht das digitale Zeitalter den Forschern, über diese datenfreien Spekulationen hinauszugehen und die externe Validität empirisch zu bewerten.

Weil die Ergebnisse von Schultz et al. (2007) waren so aufregend, dass eine Firma namens Opower mit Versorgungsunternehmen in den Vereinigten Staaten zusammenarbeitete, um die Behandlung weiter zu verbreiten. Basierend auf dem Entwurf von Schultz et al. (2007) erstellte Opower maßgeschneiderte Home Energy Reports, die zwei Hauptmodule enthielten: Eines zeigte den Stromverbrauch eines Haushalts im Verhältnis zu seinen Nachbarn mit einem Emoticon und eines gab Tipps zur Senkung des Energieverbrauchs (Abbildung 4.6). In Zusammenarbeit mit Forschern führte Opower randomisierte kontrollierte Experimente durch, um die Auswirkungen dieser Home Energy Reports zu bewerten. Auch wenn die Behandlungen in diesen Experimenten typischerweise physisch - normalerweise über altmodische Schneckenpost - durchgeführt wurden, wurde das Ergebnis unter Verwendung digitaler Geräte in der physikalischen Welt (z. B. Leistungsmesser) gemessen. Darüber hinaus wurden die Opower-Experimente nicht in Zusammenarbeit mit Forschungsassistenten, die jedes Haus besuchten, manuell gesammelt, sondern in Partnerschaft mit Energieversorgern, die es den Forschern ermöglichten, auf die Leistungsmessungen zuzugreifen. Daher wurden diese teilweise digitalen Feldexperimente in großem Maßstab bei geringen variablen Kosten durchgeführt.

Abbildung 4.6: Die Home Energy Reports hatten ein Social Comparison Module und ein Action Steps Module. Reproduziert mit Erlaubnis von Allcott (2011), Abbildungen 1 und 2.

Abbildung 4.6: Die Home Energy Reports hatten ein Social Comparison Module und ein Action Steps Module. Reproduziert mit Erlaubnis von Allcott (2011) , Abbildungen 1 und 2.

In einer ersten Allcott (2011) von Experimenten mit 600.000 Haushalten an 10 verschiedenen Standorten stellte Allcott (2011) fest, dass der Home Energy Report den Stromverbrauch senkte. Mit anderen Worten, die Ergebnisse der viel größeren, geographisch breiteren Studie waren qualitativ den Ergebnissen von Schultz et al. (2007) . In weiteren Untersuchungen mit acht Millionen zusätzlichen Haushalten an 101 verschiedenen Standorten stellte Allcott (2015) erneut fest, dass der Home Energy Report den Stromverbrauch konsequent senkte. Dieser viel größere Satz von Experimenten enthüllte auch ein interessantes neues Muster, das in keinem einzelnen Experiment sichtbar sein würde: Die Größe des Effekts nahm in den späteren Experimenten ab (Abbildung 4.7). Allcott (2015) spekulierte, dass dieser Rückgang stattfand, da die Behandlung im Laufe der Zeit auf verschiedene Arten von Teilnehmern angewandt wurde. Insbesondere nahmen Versorger mit stärker umweltorientierten Kunden das Programm eher früher an und ihre Kunden reagierten besser auf die Behandlung. Da Versorger mit weniger umweltorientierten Kunden das Programm annahmen, schien seine Wirksamkeit zu sinken. Genauso wie Randomisierung in Experimenten sicherstellt, dass die Behandlungs- und Kontrollgruppe ähnlich sind, stellt Randomisierung in den Forschungsstandorten sicher, dass die Schätzungen von einer Gruppe von Teilnehmern auf eine allgemeinere Population verallgemeinert werden können (siehe Kapitel 3 über Stichproben). Wenn Forschungsstandorte nicht zufällig ausgewählt werden, kann eine Verallgemeinerung - selbst bei einem perfekt konzipierten und durchgeführten Experiment - problematisch sein.

Abbildung 4.7: Ergebnisse von 111 Experimenten, in denen die Auswirkungen des Home Energy Reports auf den Stromverbrauch getestet wurden. An den Orten, an denen das Programm später verabschiedet wurde, hatte es eher kleinere Auswirkungen. Allcott (2015) argumentiert, dass eine Hauptursache für dieses Muster darin besteht, dass Websites mit stärker umweltorientierten Kunden das Programm früher eher angenommen haben. Angepasst an Allcott (2015), Abbildung 3.

Abbildung 4.7: Ergebnisse von 111 Experimenten, in denen die Auswirkungen des Home Energy Reports auf den Stromverbrauch getestet wurden. An den Orten, an denen das Programm später verabschiedet wurde, hatte es eher kleinere Auswirkungen. Allcott (2015) argumentiert, dass eine Allcott (2015) für dieses Muster darin besteht, dass Websites mit stärker umweltorientierten Kunden das Programm früher eher angenommen haben. Angepasst an Allcott (2015) , Abbildung 3.

Zusammen haben diese 111 Experimente - 10 in Allcott (2011) und 101 in Allcott (2015) - etwa 8,5 Millionen Haushalte aus den gesamten Vereinigten Staaten erfasst. Sie zeigen durchweg, dass Home Energy Reports den durchschnittlichen Stromverbrauch reduzieren, ein Ergebnis, das die ursprünglichen Ergebnisse von Schultz und Kollegen aus 300 Haushalten in Kalifornien unterstützt. Über die Replikation dieser ursprünglichen Ergebnisse hinaus zeigen die Nachfolgeexperimente, dass die Größe des Effekts von Ort zu Ort variiert. Diese Reihe von Experimenten veranschaulicht auch zwei allgemeinere Punkte über partielle digitale Feldexperimente. Erstens werden Forscher in der Lage sein, Bedenken hinsichtlich der externen Validität empirisch anzugehen, wenn die Kosten für die Durchführung von Experimenten niedrig sind, und dies kann vorkommen, wenn das Ergebnis bereits durch ein Always-On-Datensystem gemessen wird. Daher schlägt es vor, dass Forscher nach anderen interessanten und wichtigen Verhaltensweisen Ausschau halten sollten, die bereits aufgezeichnet werden, und dann Experimente zu dieser bestehenden Messinfrastruktur entwerfen. Zweitens erinnern diese Experimente daran, dass digitale Feldexperimente nicht nur online sind; zunehmend erwarte ich, dass sie überall mit vielen Ergebnissen sein werden, die von Sensoren in der gebauten Umgebung gemessen werden.

Die vier Arten der Validität - statistische Schlussfolgerungsvalidität, interne Validität, Konstruktvalidität und externe Validität - stellen eine mentale Checkliste bereit, um Forschern zu helfen, zu beurteilen, ob die Ergebnisse eines bestimmten Experiments eine allgemeinere Schlussfolgerung unterstützen. Im Vergleich zu Analog-Altersexperimenten sollte es in digitalen Altersversuchen einfacher sein, die externe Validität empirisch zu untersuchen, und es sollte auch einfacher sein, die interne Validität sicherzustellen. Auf der anderen Seite werden Probleme der Konstruktvalidität in Experimenten im digitalen Zeitalter wahrscheinlich schwieriger sein, insbesondere in digitalen Feldexperimenten, die Partnerschaften mit Unternehmen beinhalten.