2.2大數據

公司和政府為研究以外的目的創建和收集大數據。因此,使用這些數據進行研究需要重新利用。

許多人在數字時代遇到社會研究的第一種方式是通常所謂的大數據 。儘管這個術語被廣泛使用,但對大數據甚至沒有達成共識。然而,大數據最常見的定義之一側重於“3 V”:音量,多樣性和速度。粗略地說,有很多數據,有各種各樣的格式,而且它是不斷創建的。一些大數據的粉絲也增加了其他“V”,如Veracity和Value,而一些評論家則添加Vs,如Vague和Vacuous。為了社會研究的目的,我認為一個更好的起點是5“Ws”而不是3“Vs”(或5“Vs”或7“Vs”):Who,What,Where,When ,以及為什麼。事實上,我認為大數據源所帶來的許多挑戰和機遇只來自一個“W”:為什麼。

在模擬時代,大多數用於社會研究的數據都是為了進行研究而創建的。然而,在數字時代,公司和政府正在為研究以外的目的創造大量數據,例如提供服務,創造利潤和管理法律。然而, 富有創造力的人已經意識到您可以這些公司和政府數據重新用於研究。回想第1章中的藝術比喻,就像杜尚將一個被發現的對象重新用於創作藝術一樣,科學家們現在可以重新利用已發現的數據來創造研究。

雖然毫無疑問是重新利用的巨大機會,但使用非為研究目的而創建的數據也帶來了新的挑戰。例如,將Twitter等社交媒體服務與傳統的民意調查(例如一般社會調查)進行比較。推特的主要目標是為用戶提供服務並賺取利潤。另一方面,一般社會調查的重點是為社會研究創建通用數據,特別是輿論研究。目標的這種差異意味著Twitter創建的數據和通用社會調查所創建的數據具有不同的屬性,即使兩者都可用於研究公眾輿論。 Twitter的運作規模和速度與普通社會調查無法相提並論,但與通用社會調查不同,Twitter不會仔細地對用戶進行抽樣,也不會努力保持長期的可比性。因為這兩個數據源是如此不同,所以說一般社會調查比Twitter好,反之亦然。如果你想要每小時測量全球情緒(例如, Golder and Macy (2011) ),Twitter是最好的。另一方面,如果你想了解美國態度兩極分化的長期變化(例如, DiMaggio, Evans, and Bryson (1996) ),那麼一般社會調查是最好的選擇。更一般地說,本章不是試圖爭論大數據源比其他類型的數據更好或更差,而是試圖澄清哪些類型的研究問題大數據源具有吸引力的屬性以及哪些類型的問題可能不是理想。

在考慮大數據源時,許多研究人員立即關注公司創建和收集的在線數據,例如搜索引擎日誌和社交媒體帖子。然而,這個狹隘的焦點遺漏了另外兩個重要的大數據來源。首先,越來越多的企業大數據源來自物理世界中的數字設備。例如,在本章中,我將告訴您一項研究,該研究重新利用超市結賬數據來研究工人的生產力如何受到同齡人生產力的影響(Mas and Moretti 2009) 。然後,在後面的章節中,我將告訴您使用手機通話記錄的研究人員(Blumenstock, Cadamuro, and On 2015)以及電力公司創建的計費數據(Allcott 2015) 。正如這些例子所示,企業大數據源不僅僅是在線行為。

狹隘地關注在線行為而錯過的第二個重要數據來源是政府創建的數據。這些政府數據,研究人員稱之為政府行政記錄 ,包括稅務記錄,學校記錄和人口動態統計記錄(如出生和死亡登記處)等內容。在某些情況下,政府一直在為這些數據創造數百年的數據,社會科學家幾乎與社會科學家一樣長期利用這些數據。然而,改變的是數字化,這使政府更容易收集,傳輸,存儲和分析數據。例如,在本章中,我將向您介紹一項研究,該研究重新利用紐約市政府的數字出租車計量表的數據,以解決勞動經濟學中的一個基本爭論(Farber 2015) 。然後,在後面的章節中,我將告訴您政府收集的投票記錄如何用於調查(Ansolabehere and Hersh 2012)和實驗(Bond et al. 2012)

我認為再利用的想法是從大數據源學習的基礎,因此,在更具體地討論大數據源的屬性(第2.3節)以及如何在研究中使用這些(第2.4節)之前,我想要提供關於再利用的兩條一般性建議。首先,考慮我在“找到的”數據和“設計的”數據之間建立的對比度是很誘人的。那很接近,但是不太對勁。儘管從研究人員的角度來看,大數據源“被發現”,但它們並不僅僅是從天而降。相反,研究人員“發現”的數據源是出於某種目的而由某人設計的。由於“發現”數據是由某人設計的,因此我始終建議您盡可能多地了解創建數據的人員和流程。其次,當您重新調整數據時,想像您的問題的理想數據集,然後將該理想數據集與您正在使用的數據集進行比較通常會非常有幫助。如果您自己沒有收集數據,那麼您想要的和您擁有的數據之間可能存在重要差異。注意到這些差異將有助於澄清您可以從您擁有的數據中學到什麼,也無法從中學到什麼,並且可能會建議您應該收集的新數據。

根據我的經驗,社會科學家和數據科學家傾向於以非常不同的方式進行再利用。習慣於使用專為研究設計的數據的社會科學家通常會快速指出重新利用數據的問題而忽略其優勢。另一方面,數據科學家通常會快速指出重新利用數據的好處,同時忽略其弱點。當然,最好的方法是混合。也就是說,研究人員需要了解大數據源的特徵 - 無論好壞 - 然後找出如何從中學習。而且,這是本章其餘部分的計劃。在下一節中,我將描述大數據源的十個常見特徵。然後,在下一節中,我將描述三種可以很好地處理這些數據的研究方法。