थप टिप्पणी

यो खण्ड एक कथा रूपमा पढ्नुपर्छ भन्दा, एउटा सन्दर्भ रूपमा प्रयोग गर्न डिजाइन गरिएको छ।

  • (परिचय खण्ड 2.1)

नियालेर भनेर यस अध्यायमा समावेश छैन को एक प्रकारको Ethnography छ। डिजिटल रिक्त स्थान मा Ethnography थप देख्न Boellstorff et al. (2012) , र मिश्रित डिजिटल र शारीरिक रिक्त स्थान मा Ethnography थप देख्न Lane (2016)

  • ठूलो डाटा (धारा 2.2)

तपाईं डाटा repurposing गर्दा सम्भावित समस्या तपाईं मुठभेड हुन सक्छ भनेर बुझ्न मदत गर्न सक्छ कि दुई मानसिक चाल छन्। पहिलो, तपाईंले आफ्नो समस्या को लागि आदर्श डेटासेटको कल्पना गर्ने प्रयास गर्न सक्नुहुन्छ र तपाईँले प्रयोग छन् भनेर डेटासेटको कि तुलना गर्नुहोस्। तिनीहरूले कसरी समान छन् र तिनीहरूले विभिन्न कस्तो छ? तपाईं आफ्नो डाटा आफैलाई सङ्कलन गर्नुभएन भने, त्यहाँ तपाईं चाहनुहुन्छ र के तपाईं के बीच फरक हुन संभावना छ। तर, तपाईं यी मतभेद सानो वा प्रमुख छन् भने निर्णय छ।

दोस्रो, कसैले सिर्जना र केही कारणले आफ्नो डाटा संकलन कि सम्झना। तपाईं आफ्नो तर्क बुझ्न प्रयास गर्नुपर्छ। उल्टो-ईन्जिनियरिङ् को यस प्रकारको तपाईं आफ्नो repurposed डाटा मा सम्भव समस्या र पक्षपात पहिचान गर्न मद्दत गर्न सक्छ।

त्यहाँ "ठूलो डाटा" को कुनै एकल सहमति परिभाषा छ, तर धेरै परिभाषाहरू 3 बनाम ध्यान केन्द्रित जस्तो देखिन्छ: (जस्तै, मात्रा, किसिम, र वेग Japec et al. (2015) )। बरु डाटा को विशेषताहरु ध्यान भन्दा, मेरो परिभाषा डाटा सिर्जना गरिएको थियो किन थप केंद्रित।

ठूलो डाटा को श्रेणी भित्र सरकार प्रशासनिक डाटा को मेरो समावेश एक बिट असामान्य छ। यस मामला गरेका छन् जसले अरूलाई समावेश Legewie (2015) , Connelly et al. (2016) , र Einav and Levin (2014) । अनुसन्धान को लागि सरकार प्रशासनिक डाटा को मूल्य बारेमा थप को लागि, Card et al. (2010) , Taskforce (2012) , र Grusky, Smeeding, and Snipp (2015)

सरकार तथ्याङ्क प्रणाली, विशेष अमेरिकी जनगणना ब्यूरो भित्र बाट प्रशासनिक अनुसन्धान को एक दृश्य को लागि, Jarmin and O'Hara (2016) । तथ्याङ्क स्वीडेन मा प्रशासनिक रेकर्ड अनुसन्धान को एक पुस्तक लम्बाइ उपचार को लागि, Wallgren and Wallgren (2007)

अध्याय मा, म छोटकरीमा जस्तै सामान्य सामाजिक सर्वेक्षण (GSS) यस्तो ट्विटर रूपमा सामाजिक मिडिया डेटा स्रोत रूपमा एक परम्परागत सर्वेक्षण तुलना। परम्परागत सर्वेक्षण र सामाजिक मिडिया डाटा बीच विस्तृत र सावधान तुलना को लागि, Schober et al. (2016)

  • ठूलो डाटा को साधारण विशेषताहरु (धारा 2.3)

ठूलो डाटा यी 10 विशेषताहरु विभिन्न लेखक को एक किसिम द्वारा विभिन्न तरिका को एक किसिम मा वर्णन गरिएको छ। यी विषयहरूमा मेरो सोचाइ प्रभावित लेखन समावेश: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , र Goldstone and Lupyan (2016)

यस अध्यायमा भर, म अवधि डिजिटल निशान, म अपेक्षाकृत तटस्थ छ लाग्छ जो प्रयोग गर्नुभएको छ। डिजिटल निशान लागि अर्को लोकप्रिय अवधि डिजिटल पैताला छाप्(Golder and Macy 2014) , तर हैल Abelson, केन Ledeen, र हैरी लुईस (2008) दर्शाउन, एक अधिक उपयुक्त शब्द शायद डिजिटल औंलाहरु छ। तपाईं पैताला छाप् सिर्जना गर्दा, तपाईं भइरहेको छ र आफ्नो पैताला छाप् साधारण व्यक्तिगत तपाईं लगाया गर्न सकिँदैन के सजग छन्। एउटै तपाईंको डिजिटल निशान लागि साँचो छैन। वास्तवमा, तपाईंले धेरै सानो ज्ञान छ जो बारेमा सबै समय निशान छोडेर छन्। र, हुनत यी निशान तिनीहरूलाई तपाईंको नाम छैन, तिनीहरूले अक्सर फिर्ता लिङ्क गर्न सकिन्छ। अदृश्य र व्यक्तिगत रूपमा पहिचान: अर्को शब्दमा, तिनीहरूले थप औंलाहरु जस्तै हुन्।

ठूलो

किन ठूलो डेटासेट, तथ्याङ्क परीक्षण समस्याग्रस्त प्रस्तुत थप को लागि, Lin, Lucas, and Shmueli (2013)McFarland and McFarland (2015) । यी मुद्दाहरू व्यावहारिक तथ्याङ्क महत्त्व भन्दा महत्त्व ध्यान केन्द्रित गर्न अनुसन्धानकर्ताहरूले नेतृत्व गर्नुपर्छ।

सधैं-

विचार गर्दा सधैं-डाटा, यो महत्त्वपूर्ण तपाईं समय नै सटीक मान्छे तुलना वा कि तपाईं मान्छे केही परिवर्तन समूह तुलना गर्दै छन् कि विचार छ; उदाहरणका लागि हेर्नुहोस्, Diaz et al. (2016)

गैर-प्रतिक्रियाशील

गैर-प्रतिक्रियाशील उपाय मा एक क्लासिक पुस्तक हो Webb et al. (1966) । पुस्तक पूर्व-मिति उदाहरण डिजिटल उमेर, तर तिनीहरू अझै पनि रोशन छन्। मान्छे किनभने आम निगरानी उपस्थिति को आफ्नो व्यवहार परिवर्तन उदाहरणको लागि, हेर्न Penney (2016)Brayne (2014)

अपूर्ण

रेकर्ड लिंकेज थप को लागि, Dunn (1946)Fellegi and Sunter (1969) (ऐतिहासिक) र Larsen and Winkler (2014) (आधुनिक)। यस्तो डाटा डिडुप्लीकेशन, उदाहरणका पहिचान, नाम मिल्दो रूपमा समान नजिक पनि नाम अन्तर्गत कम्प्युटर विज्ञान मा विकसित गरिएको छ, रेकर्ड पत्ता लगाउने पत्ता लगाउने नक्कल र नक्कल (Elmagarmid, Ipeirotis, and Verykios 2007) । त्यहाँ व्यक्तिगत जानकारी पहिचान को प्रसारण आवश्यक नगर्ने लिंकेज रेकर्ड गर्न दृष्टिकोण संरक्षण गोपनीयता पनि छन् (Schnell 2013) । फेसबुक पनि एक मतदान व्यवहार गर्न आफ्नो रेकर्ड लिङ्क गर्न अगाडि बढ्न विकसित गरेको छ; यो म अध्याय 4 मा बारेमा बताउन छौँ कि एक प्रयोग मूल्याङ्कन गर्न गरेको थियो (Bond et al. 2012; Jones et al. 2013)

निर्माण वैधता थप को लागि, Shadish, Cook, and Campbell (2001) , अध्याय 3।

दुर्गम

को एओएल खोज लग debacle थप को लागि, Ohm (2010) । म जब म प्रयोगहरू वर्णन कम्पनीहरु र अध्याय 4 मा सरकारले संग भागीदारी बारेमा सल्लाह प्रदान। लेखक को एक नम्बर दुर्गम डाटा मा निर्भर छ कि अनुसन्धान बारेमा चिन्ता व्यक्त गरेका छन्, देख्न Huberman (2012)boyd and Crawford (2012)

विश्वविद्यालय शोधकर्ताओं डाटा पहुँच प्राप्त गर्न को लागि एक राम्रो तरिका एक प्रशिक्षार्थी वा भ्रमण शोधकर्ता रूपमा एक कम्पनी मा काम गर्न छ। डाटा पहुँच सक्षम गर्न साथै, यो प्रक्रिया पनि शोधकर्ता डाटा जो विश्लेषण लागि महत्त्वपूर्ण छ सिर्जना गरिएको थियो कसरी बारेमा थप जान्न मद्दत गर्नेछ।

गैर-प्रतिनिधि

गैर-representativeness सम्पूर्ण जनसंख्याको बारेमा बयान गर्न चाहनेहरूको अनुसन्धानकर्ताहरूले र सरकारको लागि प्रमुख समस्या छ। यो सामान्यतया आफ्नो प्रयोगकर्ता केन्द्रित छन् कम्पनीहरु चासो को कम छ। तथ्याङ्क नेदरल्यान्ड्स व्यापार ठूलो डाटा को गैर-representativeness को मुद्दा ठान्नुहुन्छ कसरी थप हेर्नुहोस् Buelens et al. (2014)

अध्याय 3 मा, म धेरै ठूलो विस्तार नमूना र अनुमान वर्णन छौँ। डाटा गैर-प्रतिनिधि, केही अवस्थामा छन् भने पनि, तिनीहरूले राम्रो अनुमान उत्पादन गर्न भारित गर्न सकिन्छ।

ड्रिफ्टिङ

सिस्टम बहाव बाहिर बाट हेर्न धेरै गाह्रो छ। तर, MovieLens परियोजना (थप अध्याय 4 मा छलफल) एक शैक्षिक अनुसन्धान समूह द्वारा 15 वर्षभन्दा चलान गरिएको छ। त्यसकारण, तिनीहरूले दस्तावेज र सिस्टम समय विकसित छ भन्ने बाटो र कसरी बारेमा जानकारी साझेदारी यो असर पार्न सक्छ विश्लेषण (Harper and Konstan 2015)

विद्वानहरूको एक नम्बर ट्विटर मा बहाव केन्द्रित छन्: Liu, Kliman-Silver, and Mislove (2014)Tufekci (2014)

क्रमबद्ध हैरान

म पहिलो शब्द भाषण मा जन Kleinberg प्रयोग "क्रमबद्ध हैरान" सुने। Performativity पछि मुख्य विचार केही सामाजिक विज्ञान सिद्धान्त "क्यामेरा छैन इन्जिन" हो भन्ने छ (Mackenzie 2008) । छ, तिनीहरूले वास्तवमा संसारको आकार भन्दा बस यो कब्जा।

फोहोर

सरकारी तथ्याङ्क एजेन्सीहरू डाटा सफाई, तथ्याङ्क डाटा सम्पादन कल। De Waal, Puts, and Daas (2014) सर्वेक्षण लागि विकास तथ्याङ्क डाटा सम्पादन प्रविधी वर्णन र जो हदसम्म तिनीहरू ठूलो डाटा स्रोतहरु लागू, र हो गर्न जाँच्न Puts, Daas, and Waal (2015) एक अधिक सामान्य दर्शक त्यहि विचार केही प्रस्तुत।

ट्विटर, स्पाम केन्द्रित अध्ययन केही उदाहरणको लागि Clark et al. (2016)Chu et al. (2012) । अन्तमा, Subrahmanian et al. (2016) को DARPA ट्विटर बोट चुनौती को परिणाम वर्णन गर्दछ।

संवेदनशील

Ohm (2015) संवेदनशील जानकारी को विचार मा पहिले अनुसन्धान समीक्षा र बहु-कारक परीक्षण प्रदान गर्दछ। उहाँले प्रस्ताव चार कारक हो: हानि को सम्भावना; हानि को सम्भावना; एक गोप्य सम्बन्ध उपस्थिति; र जोखिम कि majoritarian चिन्ता प्रतिबिम्बित।

  • कुरा गणना (धारा 2.4.1)

न्यूयोर्क मा ट्याक्सी को Farber गरेको अध्ययन गरेर पहिलेको अध्ययन आधारित थियो Camerer et al. (1997) यात्रा सुरू समय रेकर्ड गर्न चालक द्वारा प्रयोग कागज यात्रा पानाहरू-कागज फारामहरू, अन्त समय र भाडा को तीन अलग अलग सुविधा नमूनाहरू प्रयोग। तिनीहरूले ज्याला उच्च थिए जहाँ दिन मा कम काम गरे: यो पहिले अध्ययन चालक लक्ष्य earners हुन जस्तो देखिने फेला परेन।

Kossinets and Watts (2009) सामाजिक सञ्जाल मा homophily को मूल केन्द्रित थियो। हेर्नुहोस् Wimmer and Lewis (2010) फेसबुक बाट डाटा प्रयोग गर्ने नै समस्याको एक अलग दृष्टिकोण लागि।

पछि काममा, राजा र सहयोगिहरु थप चीन मा अनलाइन जाच्ने र काटछाट गर्ने खोज्नुभयो छन् (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) । चीन मा अनलाइन जाच्ने र काटछाट गर्ने नाप्ने गर्न सम्बन्धित दृष्टिकोण को लागि, Bamman, O'Connor, and Smith (2012) । मा प्रयोग गरिएको जस्तो तथ्याङ्क विधिहरू मा थप King, Pan, and Roberts (2013) को 11 लाख पोस्ट को भावना अनुमान गर्न, हेर्न Hopkins and King (2010) । निरीक्षण सिक्ने थप को लागि, James et al. (2013) (कम प्राविधिक) र Hastie, Tibshirani, and Friedman (2009) (थप प्राविधिक)।

  • पूर्वानुमान (धारा 2.4.2)

पूर्वानुमान औद्योगिक डाटा विज्ञान एक ठूलो भाग हो (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) । पूर्वानुमान को एक प्रकार सामान्यतः सामाजिक अनुसन्धानकर्ताहरूले गरेको छन् भन्ने उदाहरणका लागि, डेमोग्राफिक पूर्वानुमान छन् Raftery et al. (2012)

गुगल फ्लू चलन इन्फ्लूएंजा प्रसार nowcast खोज डाटा प्रयोग गर्न पहिलो परियोजना थिएन। वास्तवमा, संयुक्त राज्य अमेरिका मा अनुसन्धानकर्ताहरूले (Polgreen et al. 2008; Ginsberg et al. 2009) र स्वीडेन (Hulth, Rydevik, and Linde 2009) केही खोज सर्तहरू (जस्तै, "फ्लू") राष्ट्रिय सार्वजनिक स्वास्थ्य निगरानी भविष्यवाणी भनेर पाएका यसलाई अघि डाटा जारी थियो। पछि धेरै, धेरै अन्य परियोजनाहरू रोग निगरानी पत्ता लगाउनको लागि डिजिटल ट्रेस डेटा प्रयोग गर्न, हेर्न प्रयास गरेका छन् Althouse et al. (2015) एक समीक्षा लागि।

स्वास्थ्य परिणाम भविष्यवाणी गर्न डिजिटल ट्रेस डेटा प्रयोग गर्न साथै, त्यहाँ पनि चुनाव परिणाम भविष्यवाणी गर्न ट्विटर डाटा प्रयोग काम को एक ठूलो रकम भएको छ; समीक्षा लागि हेर्न Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch। 7), र Huberty (2015)

इन्फ्लूएंजा प्रसार भविष्यवाणी र चुनाव संसारमा घटना कुनै किसिमको भविष्यवाणी गर्न डिजिटल ट्रेस केही प्रकारको प्रयोग दुवै उदाहरण हुन् भविष्यवाणी गर्न ट्विटर डाटा प्रयोग गर्न खोज डाटा प्रयोग। यो सामान्य संरचना छ कि अध्ययन को एक भारी संख्या। तालिका 2.5 केही अन्य उदाहरण पनि समावेश छ।

तालिका 2.5: अध्ययन को आंशिक सूची केही घटना भविष्यवाणी गर्न केही डिजिटल ट्रेस प्रयोग गर्नुहोस्।
डिजिटल ट्रेस नतिजा उद्धरण
ट्विटर चलचित्र अमेरिकामा को बक्स कार्यालय राजस्व Asur and Huberman (2010)
लग खोज अमेरिकामा चलचित्र, संगीत, किताब, र भिडियो खेल को बिक्री Goel et al. (2010)
ट्विटर ल जोन्स औद्योगिक औसत (अमेरिकी शेयर बजार) Bollen, Mao, and Zeng (2011)
  • Approximating प्रयोगहरू (धारा 2.4.3)

पत्रिका भज राजनीतिक विज्ञान ठूलो डाटा, causal inference, र औपचारिक सिद्धान्त मा एक गोष्ठीको थियो, र Clark and Golder (2015) प्रत्येक योगदान संक्षिप्त। अमेरिका को संयुक्त राज्य अमेरिका को विज्ञान राष्ट्रिय प्रतिष्ठानमा को पत्रिका कार्यवाही causal inference र ठूलो डाटा मा एक गोष्ठीको थियो, र Shiffrin (2016) प्रत्येक योगदान संक्षिप्त।

प्राकृतिक प्रयोगहरू मामलामा, Dunning (2012) एक उत्कृष्ट पुस्तक लम्बाइ उपचार प्रदान गर्दछ। प्राकृतिक प्रयोग रूपमा भियतनाम मस्यौदा लटरी प्रयोग अधिक को लागि, Berinsky and Chatfield (2015) । भनेर प्रयास स्वतः भित्र ठूलो डाटा स्रोतहरु को प्राकृतिक प्रयोगहरू पत्ता लगाउन मेशिन शिक्षाका दृष्टिकोण को लागि, Jensen et al. (2008)Sharma, Hofman, and Watts (2015)

मिल्दो मामलामा, एक आशावादी समीक्षा लागि, हेर्न Stuart (2010) , र एक निराशावादी समीक्षा लागि हेर्न Sekhon (2009) । छाँट्ने एक प्रकारको रूपमा मिल्ने थप को लागि, Ho et al. (2007) । मिल्दो को उत्कृष्ट उपचार प्रदान पुस्तकहरू लागि, हेर्न Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , र Imbens and Rubin (2015)