4.4.1 Gültigkeit

Gültigkeit bezieht sich auf , wie sehr die Ergebnisse eines Experiments unterstützen eine allgemeine Schlussfolgerung.

Kein Versuch ist perfekt, und Forscher einen umfangreichen Wortschatz entwickelt , um mögliche Probleme zu beschreiben. Gültigkeit in dem Maße auf die sich die Ergebnisse eines bestimmten Experiment einige generelle Schlussfolgerung unterstützen. Sozialwissenschaftler haben und sie nützlich fanden Gültigkeit in vier Haupttypen unterteilt: statistische Schlussfolgerung Gültigkeit, interne Validität, Konstruktvalidität und externe Validität (Shadish, Cook, and Campbell 2001, Ch 2) . diese Konzepte meistern werden Sie eine geistige Checkliste bieten für critiquing und das Design und die Analyse eines Experiments zu verbessern, und es wird Ihnen helfen, mit anderen Forschern kommunizieren.

Statistische Schlussfolgerung Gültigkeit dreht sich um , ob die statistische Auswertung des Experiments wurde richtig gemacht. Im Kontext von Schultz et al. (2007) eine solche Frage könnte auf Mitte , ob sie korrekt ihre p-Werte berechnet. Die statistische Analyse geht über den Rahmen dieses Buches, aber ich kann sagen, dass die statistischen Grundsätze benötigt Experimente zu entwerfen und zu analysieren, haben nicht im digitalen Zeitalter verändert. Allerdings ist die unterschiedliche Datenumgebung in digitalen Experimenten neue statistische Möglichkeiten zu schaffen (zB mit Methoden des maschinellen Lernens Heterogenität der Behandlungseffekte abzuschätzen (Imai and Ratkovic 2013) ) und neue Rechen Herausforderungen (zB Blockierung in massiven Versuchen (Higgins, Sävje, and Sekhon 2016) ).

Die interne Validität dreht sich um , ob die experimentellen Verfahren wurden korrekt durchgeführt. Zurückkehren zu dem Experiment von Schultz et al. (2007) , Fragen über die interne Validität konnte Zentrum rund um die Randomisierung, Lieferung der Behandlung und Messung der Ergebnisse. Zum Beispiel könnten Sie besorgt sein, dass die wissenschaftlichen Mitarbeiter nicht die elektrischen Meter zuverlässig gelesen. In der Tat, Schultz und Kollegen waren besorgt über dieses Problem und sie hatten eine Probe von Metern zweimal gelesen; Glücklicherweise waren die Ergebnisse im wesentlichen identisch. Im Allgemeinen Schultz und Experiment 'Kollegen erscheint hohe interne Validität zu haben, aber das ist nicht immer der Fall; komplexes Feld und Online-Experimente oft auf Probleme stoßen, tatsächlich die richtige Behandlung, die richtigen Leute zu liefern und die Ergebnisse für jeden zu messen. Glücklicherweise kann das digitale Zeitalter helfen, Bedenken über die interne Validität reduzieren, weil es einfacher zu gewährleisten macht, dass die Behandlung zu denjenigen entworfen geliefert wird, der sie sollen erhalten und die Ergebnisse für alle Teilnehmer zu messen.

Konstruktvalidität Zentren rund um die Übereinstimmung zwischen den Daten und den theoretischen Konstrukte. Wie in Kapitel 2 beschrieben, sind Konstrukte abstrakte Konzepte, die Sozialwissenschaftler über Grund. Leider haben diese abstrakten Begriffe nicht immer klare Definitionen und Messungen. Zurückkommend auf Schultz et al. (2007) , die Behauptung , dass soziale Normen Unterlassungs können den Stromverbrauch senken erfordert Forscher eine Behandlung zu entwickeln , die "Unterlassungs sozialen Normen" (zB ein Emoticon) und zu messen "Stromverbrauch" manipulieren würde. In analogen Experimenten entwickelt, um viele Forscher ihre eigenen Behandlungen und gemessen, um ihre eigenen Ergebnisse. Dieser Ansatz stellt sicher, dass, so weit wie möglich, die Experimente die abstrakten Konstrukten entsprechen sucht. In digitalen Experimenten, bei denen Forscher Partner mit Unternehmen oder Regierungen Behandlungen zu liefern und stets auf Datensysteme zu Ergebnissen zu messen, die Übereinstimmung zwischen dem Experiment und den theoretischen Konstrukte können weniger dicht sein verwenden. So erwarte ich, dass Konstruktvalidität eine größere Sorge in digitalen Experimenten als analoge Experimente zu sein neigen.

Schließlich zentriert externe Validität der Umgebung , ob die Ergebnisse dieses Experiments auf andere Situationen verallgemeinern würde. Zurückkommend auf Schultz et al. (2007) , so könnte man fragen, wird diese Idee liefernden Menschen Informationen über ihren Energieverbrauch im Verhältnis zu ihren Kollegen und ein Signal von Unterlassungs Normen (zB ein Emoticon) -Reduzierung Energieverbrauch , wenn es auf eine andere Weise getan wurde eine andere Einstellung? Für die meisten gut gestaltete und gut geführte Experimente, Bedenken über die externe Validität sind am schwierigsten zu behandeln. In der Vergangenheit waren diese Debatten über externe Validität häufig nur ein Haufen von Menschen in einem Raum sitzen, sich vorzustellen versucht, was passiert wäre, wenn die Verfahren in einer anderen Art und Weise durchgeführt wurden, oder an einem anderen Ort oder mit anderen Menschen. Glücklicherweise ermöglicht das digitale Zeitalter Forscher über diese datenfreien Spekulationen zu bewegen und externe Validität empirisch zu bewerten.

Da die Ergebnisse von Schultz et al. (2007) waren so aufregend, eine Firma namens Opower eine Partnerschaft mit den Utilities in den Vereinigten Staaten weiter verbreitet , die Behandlung zu implementieren. Auf der Basis der Gestaltung von Schultz et al. (2007) , schuf Opower Home Energy Reports angepasst , die zwei Hauptmodule hatte, eine eines Haushalts Stromverbrauch im Verhältnis zu seinen Nachbarn mit einem Emoticon zeigt und eine mit Tipps zur Senkung des Energieverbrauchs (Abbildung 4.6). Dann wird in Partnerschaft mit Forschern, lief Opower kontrollierte Experimente randomisiert, um die Auswirkungen der Home Energy Reports zu bewerten. Auch wenn die Behandlungen in diesen Experimenten typischerweise geliefert wurden physikalisch in der Regel durch altmodische Post-das Ergebnis wurde mit digitalen Geräten in der physischen Welt gemessen (zB Stromzähler). Anstatt diese Informationen manuell mit wissenschaftlichen Mitarbeitern zu sammeln jedes Haus besuchen, wurden die Opower Experimente alle in Partnerschaft mit Energieunternehmen getan, um die Forscher ermöglicht, die Leistungswerte zuzugreifen. Somit wird bei niedrigen variablen Kosten in großem Umfang laufen diese teilweise digitalen Feldversuche wurden.

Abbildung 4.6: Die Home Energy Reports in Allcott (2011) hatte eine soziale Vergleichsmodul und ein Handlungsschritte Modul.

Abbildung 4.6: Die Home Energy Reports in Allcott (2011) hatte eine soziale Vergleichsmodul und ein Handlungsschritte Modul.

In einer ersten Reihe von Experimenten mit 600.000 Haushalten von 10 Versorgungsunternehmen in den Vereinigten Staaten bedient, Allcott (2011) fanden die Home Energy Bericht der Stromverbrauch um 1,7% gesenkt. In anderen Worten, waren die Ergebnisse aus der viel größeren, geographisch unterschiedlichen Studie qualitativ ähnlich den Ergebnissen von Schultz et al. (2007) . Aber war der Effekt Größe kleiner: in Schultz et al. (2007) die Haushalte in der Beschreibung und injektiv Normen Zustand (die mit dem Emoticon) reduziert ihren Stromverbrauch um 5%. Der genaue Grund für diesen Unterschied ist nicht bekannt, aber Allcott (2011) spekuliert , dass ein handgeschriebenes Emoticon als Teil eines von einer Universität geförderte Studie empfangen könnte eine größere Wirkung auf das Verhalten haben als eine gedruckte Emoticon als Teil einer Masse produziert Bericht von einem Empfangs Energieversorgungsunternehmen.

Ferner wird in spätere Forschung, Allcott (2015) berichtet , weitere 8 Millionen Haushalte auf weitere 101 Experimenten mit. In diesen nächsten 101 Experimenten setzte sich der Home Energy Bericht Menschen verursachen ihren Stromverbrauch zu senken, aber die Auswirkungen waren noch kleiner. Der genaue Grund für diesen Rückgang ist nicht bekannt, aber Allcott (2015) spekuliert , dass die Wirksamkeit des Berichts rückläufig im Laufe der Zeit zu sein schien , weil es tatsächlich auf verschiedene Arten von Teilnehmern angewendet werden wurde. Genauer gesagt waren Versorger in mehr Umweltschützer Bereichen mehr übernehmen wahrscheinlich das Programm früher und ihre Kunden auf die Behandlung reaktions waren. Als Versorger mit weniger Umwelt Kunden das Programm angenommen, erschien seine Wirksamkeit zu sinken. So, wie die Randomisierung bei Experimenten stellt sicher, dass die Behandlung und Kontrollgruppe ähnlich sind, die Randomisierung bei Forschungsstandorten sorgt dafür, dass die Schätzungen von einer einer Gruppe von Teilnehmern zu einer allgemeinen Bevölkerung verallgemeinert werden kann (man denke zurück zu Kapitel 3 über Probenahme). Wenn Forschungsstandorte nicht zufällig abgetastet werden, dann Generalisierungsmenge sogar von einem perfekt konzipiert und durchgeführt Experiment-kann problematisch sein.

Zusammen stellen diese 111 Experimente-10 in Allcott (2011) und 101 in Allcott (2015) -involved etwa 8,5 Millionen Haushalte aus allen Teilen der Vereinigten Staaten. Sie zeigen immer wieder, dass Home Energy Reports durchschnittlichen Stromverbrauch zu reduzieren, ein Ergebnis, das die ursprünglichen Ergebnisse von Schultz und Kollegen aus 300 Häusern in Kalifornien unterstützt. Darüber hinaus gerade diese ursprünglichen Ergebnisse zu replizieren, die Follow-up-Experimente zeigen auch, dass die Größe des Effekts je nach Land unterschiedlich. Dieser Satz von Experimenten zeigt auch zwei weitere allgemeine Punkte über teilweise digital Feldversuche. Zunächst werden die Forscher in der Lage Adresse Bedenken über externe Validität empirisch, wenn die Kosten Experimente laufen niedrig ist, und dies kann auftreten, wenn das Ergebnis bereits durch eine Always-On-Datensystem gemessen wird. Daher schlägt er vor, dass die Forschung auf dem Ausguck für andere interessante und wichtige Verhaltensweisen sein sollte, die bereits aufgezeichnet werden, und dann Experimente entwerfen auf dieser vorhandenen Messinfrastruktur. Zweitens ist diese Reihe von Experimenten erinnert uns daran, dass digitale Feldversuche sind nicht nur online; zunehmend erwarte ich, dass sie überall mit von Sensoren in der gebauten Umwelt gemessen viele Ergebnisse sein wird.

Die vier Typen von Geltungs statistische Schlussfolgerung Gültigkeit, interne Validität, Konstruktvalidität, externe Validität-bieten eine geistige Checkliste Forscher, ob die Ergebnisse aus einem bestimmten Experiment unterstützen eine allgemeine Schlussfolgerung beurteilen zu helfen. Im Vergleich zu analogen Alters Experimenten in digitale Zeitalter Experimente sollte es einfacher sein, externe Validität empirisch zu adressieren, und es sollte einfacher interne Validität sicherzustellen. Auf der anderen Seite werden Fragen der Konstruktvalidität wahrscheinlich schwieriger in digitalen Zeitalter Experimente sein (auch wenn das nicht der Fall mit den Opower Experimenten war).