2.2 ठूलो डाटा

ठूलो डाटा सिर्जना र अनुसन्धान भन्दा अन्य प्रयोजनका लागि सरकारको संकलित छन्। अनुसन्धान को लागि यो डाटा प्रयोग त्यसैले, repurposing आवश्यक छ।

सामाजिक अनुसन्धान को एक idealized दृश्य एक वैज्ञानिक एक विचार भएको र त्यसपछि कि विचार परीक्षण गर्न डाटा सङ्कलन imagines। अनुसन्धान को यो शैली अनुसन्धान प्रश्न र डाटा बीच एक तंग फिट जान्छ, तर एक व्यक्ति शोधकर्ता अक्सर, ठूलो धनी र राष्ट्रिय-प्रतिनिधि डाटा तिनीहरूले आवश्यक डाटा, सङ्कलन गर्न आवश्यक स्रोतहरू छैन किनभने यो सीमित छ। यस्तो सामान्य सामाजिक सर्वेक्षण (GSS), अमेरिकी राष्ट्रिय चुनाव अध्ययन (ANES), र आय गतिशीलता को प्यानल अध्ययन (PSID) रूपमा तसर्थ, विगतमा सामाजिक अनुसन्धान को धेरै प्रयोग भएको छ ठूलो मात्रा सामाजिक सर्वेक्षण,। यी ठूलो मात्रा सर्वेक्षण साधारण अनुसन्धानकर्ताहरूले को एक टीम द्वारा चलाउन छन् र तिनीहरूले धेरै अनुसन्धानकर्ताहरूले प्रयोग गर्न सकिन्छ भन्ने डाटा सिर्जना गर्न डिजाइन गर्दै हुनुहुन्छ। यी ठूलो मात्रा सर्वेक्षण को लक्ष्य को भएकोले हेरविचार डाटा संग्रह डिजाइन र अनुसन्धानकर्ताहरूले प्रयोगको लागि परिणामस्वरूप डाटा तयार हालिदिए छ। यी डाटा अनुसन्धानकर्ताहरूले द्वारा र अनुसन्धानकर्ताहरूले लागि हो।

सबैभन्दा सामाजिक अनुसन्धान डिजिटल उमेर स्रोतहरू प्रयोग गरेर तथापि, मौलिक फरक छ। बरु अनुसन्धानकर्ताहरूले द्वारा र अनुसन्धानकर्ताहरूले लागि संकलित डाटा प्रयोग, यो सिर्जना र यस्तो, एक लाभ बनाउन सेवा प्रदान, वा व्यवस्था प्रशासन रूपमा आफ्नै उद्देश्यका लागि कारोबार र सरकारको संकलित थिए डाटा स्रोतहरु प्रयोग गर्दछ। यी व्यापार र सरकारी डाटा स्रोतहरु भनिन्छ गर्न ठूलो डाटा आएका छन्। ठूलो डाटा संग अनुसन्धान मूल अनुसन्धान को लागि सिर्जना गरिएको डाटा संग अनुसन्धान भन्दा फरक छ। उदाहरणका लागि तुलना, यस्तो ट्विटर रूपमा सामाजिक मिडिया वेबसाइट, जस्तै सामान्य सामाजिक सर्वेक्षण (GSS) रूपमा परम्परागत सार्वजनिक राय सर्वेक्षण संग। ट्विटर मुख्य लक्ष्य यसको प्रयोगकर्तालाई सेवा प्रदान गर्न र एक लाभ बनाउन छन्। यी लक्ष्य प्राप्त गर्न को प्रक्रिया मा, ट्विटर सार्वजनिक धारणा केही पक्षहरू अध्ययन लागि उपयोगी हुन सक्छ डाटा सिर्जना गर्छ। तर, सामान्य सामाजिक सर्वेक्षण (GSS) विपरीत, ट्विटर छैन मुख्यतया सामाजिक अनुसन्धान केन्द्रित छ।

शब्द ठूलो डाटा frustratingly अस्पष्ट छ, र यो समूह सँगै विभिन्न कुराहरू। सामाजिक अनुसन्धान को उद्देश्यका लागि, म यसलाई ठूलो डाटा स्रोतहरु को दुई प्रकारका छुट्याउन उपयोगी छ:। सरकार प्रशासनिक रेकर्ड र व्यापार प्रशासनिक रेकर्ड सरकार प्रशासनिक रेकर्ड आफ्नो दिनचर्या गतिविधिहरु को भाग रूपमा सरकारको द्वारा बनाईएको हो कि डाटा छन्। रेकर्ड यी प्रकार-यस्तो विगतका जन्म, विवाह र मृत्यु रेकर्ड-तर सरकारले झन् सङ्कलन र analyzable पक्षबाट विस्तृत रेकर्ड जारी गर्दै अध्ययन demographers रूपमा मा अनुसन्धानकर्ताहरूले द्वारा प्रयोग भएको छ। उदाहरणका लागि, न्यूयोर्क शहर सरकार शहरमा हरेक ट्याक्सी भित्र डिजिटल मीटर स्थापित। यी मीटर ड्राइभर, सुरू समय र स्थान, स्टप समय र स्थान, र भाडा सहित प्रत्येक ट्याक्सी सवारी बारेमा सबै डेटा प्रकार रेकर्ड। म यस अध्यायमा पछि बताउन छौँ भनेर अध्ययन मा, हेनरी Farber (2015) प्रतिघण्टा ज्याला र काम घण्टा संख्या बीचको सम्बन्ध बारे श्रम अर्थशास्त्र मा एक मौलिक बहस सम्बोधन गर्न यी डाटा repurposed।

दोस्रो मुख्य ठूलो डाटा को सामाजिक अनुसन्धान को लागि प्रकार व्यापार प्रशासनिक रेकर्ड छ। यी व्यापार बनाउन र सङ्कलन कि आफ्नो दिनचर्या गतिविधिहरु को भाग रूपमा डाटा छन्। यी व्यापार प्रशासनिक रेकर्ड अक्सर डिजिटल निशान भनिन्छ, र खोज इन्जिन प्रश्न लग, सामाजिक मिडिया पोस्ट जस्तै कुराहरू समावेश, र मोबाइल फोन बाट रेकर्ड कल। Critically, यी व्यापार प्रशासनिक रेकर्ड केवल अनलाइन व्यवहार गर्दै हुनुहुन्छ। उदाहरणका लागि, कि जाँच-बाहिर स्क्यानरहरू प्रयोग पसलहरु कामदार उत्पादकत्व को वास्तविक समय उपाय सिर्जना छन्। म यस अध्यायमा बारेमा पछि तपाईं बताउन छौँ भनेर अध्ययन मा, Alexandre Mas र एनरिको Moretti (2009) एक श्रमिक उत्पादकत्व आफ्नो साथीहरूले को उत्पादकत्व द्वारा प्रभावित छ कसरी अध्ययन गर्न यो सुपरमार्केट जाँच-बाहिर डाटा repurposed।

यी उदाहरण दुवै चित्रण रूपमा, repurposing को विचार ठूलो डाटा देखि सिक्दै गर्न मौलिक छ। मेरो अनुभव मा, सामाजिक वैज्ञानिकहरूले र डाटा वैज्ञानिकहरूले यो धेरै फरक repurposing गर्न दृष्टिकोण। अनुसन्धान लागि डिजाइन डाटा संग काम गर्न accustomed छन् जो सामाजिक वैज्ञानिकहरूले, यसको बलियो पक्ष बेवास्ता गर्दा repurposed डाटा संग समस्या दर्शाउन द्रुत छन्। अर्कोतर्फ, डाटा वैज्ञानिकहरूले यसको कमजोरी बेवास्ता गर्दा repurposed डाटा को लाभ दर्शाउन द्रुत छन्। स्वाभाविक, उत्कृष्ट दृष्टिकोण एक संकर हुनेछ। त्यो अनुसन्धानकर्ताहरूले डाटा-दुवै असल र खराब-र फेरि सिक्न कसरी बाहिर आंकडा यी नयाँ स्रोतहरूको विशेषताहरु बुझ्न आवश्यक छ। र, यो अध्याय को शेष लागि योजना छ। अर्को, म व्यापार र सरकारी प्रशासनिक डाटा दस साधारण विशेषताहरु वर्णन गर्नेछ। त्यसपछि म यी डाटा, यो डेटा को विशेषताहरु राम्रो अनुकूल छन् भन्ने दृष्टिकोण संग प्रयोग गर्न सकिन्छ भनेर तीन अनुसन्धान दृष्टिकोण वर्णन गर्नेछ।