2.3.4不完整

無論您的大數據有多大,它都可能沒有您想要的信息。

大多數大數據來源都是不完整的 ,因為他們沒有您想要的研究信息。這是為研究以外的目的而創建的數據的常見特徵。許多社會科學家已經具備了處理不完整性的經驗,例如現有的調查沒有提出所需要的問題。不幸的是,大數據中的不完整性問題往往更加極端。根據我的經驗,大數據往往缺少對社會研究有用的三種類型的信息:參與者的人口統計信息,其他平台上的行為以及操作理論結構的數據。

在這三種不完整性中,理論結構操作不完整的數據問題是最難解決的問題。根據我的經驗,它經常被忽視。粗略地說, 理論構造是社會科學家研究和操作 理論構造的抽象概念,意味著提出一些方法來捕獲具有可觀察數據的構造。不幸的是,這個聽起來簡單的過程經常變得非常困難。例如,讓我們想像一下,試圖通過經驗測試一個看似簡單的說法,即更聰明的人賺更多的錢。為了測試這種說法,你需要衡量“智力”。但智力是什麼? Gardner (2011)認為實際上有八種不同形式的智力。是否有可以準確衡量這些智力形式的程序?儘管心理學家做了大量的工作,但這些問題仍然沒有明確的答案。

因此,即使是一個相對簡單的主張 - 更聰明的人賺更多的錢 - 可能難以根據經驗進行評估,因為在數據中操作理論結構可能很困難。其他重要但難以操作的理論結構的例子包括“規範”,“社會資本”和“民主”。社會科學家稱理論結構與數據結構有效性之間的匹配(Cronbach and Meehl 1955) 。正如這個簡短的結構列表所表明的那樣,構造有效性是社會科學家長期以來一直在努力解決的問題。但根據我的經驗,在處理非為研究目的而創建的數據時,構造有效性的問題甚至更大(Lazer 2015)

當您評估研究結果時,評估結構有效性的一種快速且有用的方法是獲取結果,該結果通常用結構表示,並根據使用的數據重新表達。例如,考慮兩項假設的研究,這些研究聲稱可以證明更聰明的人賺更多的錢。在第一項研究中,研究人員發現,在Raven Progressive Matrices Test中得分良好的人 - 一項經過深入研究的分析智能測試(Carpenter, Just, and Shell 1990) - 報告的納稅申報收入較高。在第二項研究中,研究人員發現Twitter上使用較長詞的人更有可能提到奢侈品牌。在這兩種情況下,這些研究人員都可以聲稱,他們已經表明,更聰明的人可以賺更多的錢。然而,在第一項研究中,理論結構很好地通過數據操作,而在第二項研究中它們不是。此外,如此示例所示,更多數據不會自動解決構造有效性問題。您應該懷疑第二項研究的結果是否涉及一百萬條推文,十億條推文或一萬億條推文。對於不熟悉構造有效性概念的研究人員,表2.2提供了一些使用數字跟踪數據操作理論構造的研究實例。

表2.2:用於操作理論結構的數字軌蹟的例子
數據源 理論構造 參考
來自大學的電子郵件日誌(僅限元數據) 社會關係 Kossinets and Watts (2006)Kossinets and Watts (2009)De Choudhury et al. (2010)
微博上的社交媒體帖子 公民參與 Zhang (2016)
來自公司的電子郵件日誌(元數據和完整文本) 文化適合組織 Srivastava et al. (2017)

儘管用於捕獲理論構造的數據不完整的問題很難解決,但是對於其他常見類型的不完整性存在共同的解決方案:不完整的人口統計信息和關於其他平台上的行為的不完整信息。第一個解決方案是實際收集您需要的數據;當我告訴你有關調查時,我會在第3章告訴你。第二個主要解決方案是做數據科學家所謂的用戶屬性推理和社會科學家稱之為插補 。在這種方法中,研究人員使用他們對某些人的信息來推斷其他人的屬性。第三種可能的解決方案是組合多個數據源。此過程有時稱為記錄鏈接 。我最喜歡這個過程的比喻是由Dunn (1946)在關於記錄鏈接的第一篇論文的第一段中寫的:

“世界上每個人都創造了一本生命之書。本書從出生開始,以死亡結束。它的頁面由生活中的主要事件記錄組成。記錄鏈接是將本書頁面組裝成捲的過程的名稱。“

當鄧恩寫這篇文章時,他想像生命之書可能包括出生,婚姻,離婚和死亡等重大生活事件。然而,現在記錄了很多關於人的信息,如果那些不同的頁面(即我們的數字痕跡)可以綁定在一起,那么生命冊可能是一個非常詳細的肖像。這本生命之書可以成為研究人員的重要資源。但是,它也可以被稱為毀滅數據庫 (Ohm 2010) ,它可以用於各種不道德的目的,正如我將在第6章(倫理學)中所描述的那樣。