2.2 ข้อมูลขนาดใหญ่

แปลนี้ถูกสร้างขึ้นโดยคอมพิวเตอร์ ×

2.2 ข้อมูลขนาดใหญ่

ข้อมูลขนาดใหญ่ถูกสร้างขึ้นและรวบรวมโดย บริษัท และรัฐบาลเพื่อวัตถุประสงค์อื่นนอกเหนือจากงานวิจัย การใช้ข้อมูลนี้เพื่อการวิจัยจึงต้องมีการใช้ใหม่

วิธีแรกที่ผู้คนจำนวนมากเผชิญกับการวิจัยทางสังคมในยุคดิจิทัลคือสิ่งที่มักเรียกว่า ข้อมูลขนาดใหญ่ แม้จะมีการใช้คำนี้อย่างกว้างขวาง แต่ก็ไม่มีความเห็นพ้องกันเกี่ยวกับข้อมูลขนาดใหญ่ที่มีอยู่ อย่างไรก็ตามคำจำกัดความที่ใหญ่ที่สุดของข้อมูลขนาดใหญ่จะเน้นที่ "3 Vs": Volume, Variety และ Velocity มีข้อมูลจำนวนมากในหลายรูปแบบและมีการสร้างขึ้นอย่างต่อเนื่อง แฟนบางคนของข้อมูลขนาดใหญ่ยังเพิ่ม "Vs" อื่น ๆ เช่น Veracity และ Value ขณะที่นักวิจารณ์บางคนเพิ่ม Vs เช่น Vague และ Vacuous แทนที่จะเป็น 3 "Vs" (หรือ 5 "Vs" หรือ 7 "Vs") เพื่อจุดประสงค์ในการวิจัยทางสังคมฉันคิดว่าสถานที่ที่ดีกว่าในการเริ่มต้นคือ "Ws": ใคร, อะไร, ที่ไหน, เมื่อ , และทำไม. ในความเป็นจริงฉันคิดว่าหลาย ๆ ความท้าทายและโอกาสที่สร้างขึ้นโดยแหล่งข้อมูลขนาดใหญ่มีเพียง "W" เดียวเท่านั้น: เหตุใด

ในยุคอนาล็อกข้อมูลส่วนใหญ่ที่ใช้ในการวิจัยทางสังคมถูกสร้างขึ้นเพื่อจุดประสงค์ในการทำวิจัย อย่างไรก็ตามในยุคดิจิทัล บริษัท และรัฐบาลมีการสร้างข้อมูลจำนวนมากเพื่อวัตถุประสงค์อื่นนอกเหนือจากงานวิจัยเช่นการให้บริการการสร้างผลกำไรและการบริหารกฎหมาย อย่างไรก็ตามคนที่สร้างสรรค์ได้ตระหนักว่าคุณสามารถ นำ ข้อมูลนี้ มาใช้ใหม่ เพื่อการวิจัยได้ การย้อนกลับไปสู่การเปรียบเทียบในบทที่ 1 เช่นเดียวกับ Duchamp นำวัตถุที่ค้นพบมาสร้างเป็นศิลปะนักวิทยาศาสตร์สามารถนำข้อมูลที่ค้นพบมาใช้เพื่อสร้างการวิจัยได้

ในขณะที่มีโอกาสอย่างมากสำหรับการ repurposing โดยใช้ข้อมูลที่ไม่ได้สร้างขึ้นเพื่อวัตถุประสงค์ในการวิจัยยังนำเสนอความท้าทายใหม่ ๆ เปรียบเทียบตัวอย่างเช่นบริการสื่อสังคมออนไลน์เช่น Twitter กับแบบสำรวจความคิดเห็นแบบสาธารณะเช่นแบบสำรวจทางสังคมทั่วไป เป้าหมายหลักของ Twitter คือการให้บริการแก่ผู้ใช้และสร้างรายได้ การสำรวจทางสังคมโดยทั่วไปมุ่งเน้นที่การสร้างข้อมูลวัตถุประสงค์ทั่วไปเพื่อการวิจัยทางสังคมโดยเฉพาะอย่างยิ่งสำหรับการวิจัยความคิดเห็นของประชาชน ความแตกต่างในเป้าหมายนี้หมายความว่าข้อมูลที่สร้างขึ้นโดย Twitter และข้อมูลที่ได้จากการสำรวจทางสังคมโดยทั่วไปมีคุณสมบัติแตกต่างกันแม้ว่าทั้งสองแบบจะสามารถนำมาใช้ในการศึกษาความคิดเห็นของสาธารณชนได้ Twitter ทำงานในระดับและความเร็วที่การสำรวจทางสังคมทั่วไปไม่สามารถจับคู่ได้ แต่แตกต่างจากการสำรวจทางสังคมทั่วไป Twitter ไม่สุ่มตัวอย่างผู้ใช้อย่างระมัดระวังและไม่ทำงานอย่างหนักเพื่อรักษาความสามารถในการเปรียบเทียบในช่วงเวลา เนื่องจากทั้งสองแหล่งข้อมูลมีความแตกต่างกันจึงไม่มีเหตุผลที่จะกล่าวได้ว่า Social Social Survey ดีกว่า Twitter และในทางกลับกัน ถ้าคุณต้องการวัดความรู้สึกทั่วโลกทุกชั่วโมง (เช่น Golder and Macy (2011) ) Twitter จะดีที่สุด ในทางกลับกันถ้าคุณต้องการทำความเข้าใจเกี่ยวกับการเปลี่ยนแปลงในระยะยาวของทัศนคติในสหรัฐอเมริกา (เช่น DiMaggio, Evans, and Bryson (1996) ) การสำรวจทางสังคมโดยทั่วไปคือทางเลือกที่ดีที่สุด โดยทั่วไปแล้วแทนที่จะพยายามอ้างว่าแหล่งข้อมูลขนาดใหญ่ดีขึ้นหรือแย่กว่าข้อมูลประเภทอื่น ๆ บทนี้จะพยายามชี้แจงว่าคำถามประเภทใดที่มีแหล่งข้อมูลขนาดใหญ่มีคุณสมบัติที่น่าสนใจและคำถามประเภทใดที่พวกเขาอาจจะไม่ได้ ในอุดมคติ.

เมื่อนึกถึงแหล่งข้อมูลขนาดใหญ่นักวิจัยหลายคนให้ความสำคัญกับข้อมูลออนไลน์ที่สร้างและรวบรวมโดย บริษัท เช่นบันทึกของเครื่องมือค้นหาและโพสต์สื่อสังคมออนไลน์ อย่างไรก็ตามการโฟกัสแคบนี้จะดึงข้อมูลสำคัญสองแหล่งข้อมูลสำคัญ ๆ อันดับแรกแหล่งข้อมูลขนาดใหญ่ขององค์กรมาจากอุปกรณ์ดิจิทัลในโลกทางกายภาพ ตัวอย่างเช่นในบทนี้ฉันจะบอกคุณเกี่ยวกับการศึกษาที่นำข้อมูลเช็คเอาท์ของซูเปอร์มาร์เก็ตไปใช้เพื่อศึกษาว่าผลผลิตของคนงานมีผลต่อประสิทธิภาพการผลิตของคนรอบข้างอย่างไร (Mas and Moretti 2009) จากนั้นในบทต่อ ๆ ไปฉันจะบอกคุณเกี่ยวกับนักวิจัยที่ใช้บันทึกการโทรจากโทรศัพท์มือถือ (Blumenstock, Cadamuro, and On 2015) และข้อมูลการเรียกเก็บเงินที่สร้างขึ้นโดยสาธารณูปโภคด้านไฟฟ้า (Allcott 2015) ดังตัวอย่างเหล่านี้แสดงให้เห็นว่าแหล่งข้อมูลขนาดใหญ่ขององค์กรเป็นมากกว่าพฤติกรรมออนไลน์เท่านั้น

แหล่งที่มาที่สำคัญเป็นอันดับสองของข้อมูลขนาดใหญ่ที่ไม่ได้รับความสนใจจากพฤติกรรมออนไลน์คือข้อมูลที่สร้างขึ้นโดยรัฐบาล ข้อมูลของรัฐบาลเหล่านี้ซึ่งนักวิจัยเรียกว่า บันทึกการบริหารของรัฐบาล รวมถึงสิ่งต่างๆเช่นบันทึกภาษีประวัติโรงเรียนและบันทึกสถิติที่สำคัญ (เช่นการจดทะเบียนเกิดและเสียชีวิต) รัฐบาลได้สร้างข้อมูลประเภทนี้ในบางกรณีหลายร้อยปีแล้วและนักวิทยาศาสตร์ทางสังคมได้ใช้ประโยชน์จากข้อมูลเหล่านี้มาเกือบตราบเท่าที่มีนักวิทยาศาสตร์ทางสังคม อย่างไรก็ตามสิ่งที่มีการเปลี่ยนแปลงคือการแปลงเป็นข้อมูลดิจิทัลซึ่งทำให้รัฐบาลสามารถรวบรวมส่งเก็บและวิเคราะห์ข้อมูลได้ง่ายขึ้นอย่างมาก ตัวอย่างเช่นในบทนี้ฉันจะบอกคุณเกี่ยวกับการศึกษาที่นำข้อมูลใหม่มาใช้ใหม่จากแท๊กซี่แท็กซี่ดิจิตอลของนครนิวยอร์กเพื่อหาคำตอบพื้นฐานเกี่ยวกับเศรษฐศาสตร์แรงงาน (Farber 2015) จากนั้นในบทต่อ ๆ ไปฉันจะบอกคุณเกี่ยวกับการเก็บบันทึกข้อมูลการลงคะแนนที่รัฐบาลเก็บไว้ในแบบสำรวจ (Ansolabehere and Hersh 2012) และการทดสอบ (Bond et al. 2012)

ผมคิดว่าแนวคิดในการ repurposing เป็นพื้นฐานสำหรับการเรียนรู้จากแหล่งข้อมูลขนาดใหญ่ดังนั้นก่อนที่จะพูดถึงคุณสมบัติของแหล่งข้อมูลขนาดใหญ่ (หัวข้อ 2.3) มากขึ้นและวิธีการเหล่านี้สามารถใช้ในการวิจัยได้ (หัวข้อ 2.4) ผมต้องการ เสนอคำแนะนำทั่วไปเกี่ยวกับการใส่ใหม่สองชิ้น ประการแรกอาจทำให้เรานึกถึงความแตกต่างที่ฉันตั้งขึ้นระหว่างข้อมูล "พบ" และข้อมูล "ที่ออกแบบ" นั่นใกล้ แต่ก็ไม่ถูกต้อง แม้ว่าจากมุมมองของนักวิจัยแหล่งข้อมูลขนาดใหญ่ "ถูกค้นพบ" พวกเขาไม่ได้พังทลายลงมาจากฟากฟ้าเท่านั้น แต่แหล่งข้อมูลที่ "ค้นพบ" โดยนักวิจัยได้รับการออกแบบโดยบุคคลอื่นเพื่อวัตถุประสงค์บางประการ เนื่องจากข้อมูล "ค้นพบ" ได้รับการออกแบบโดยบุคคลหนึ่งเราขอแนะนำให้คุณพยายามทำความเข้าใจเกี่ยวกับบุคคลและกระบวนการที่สร้างข้อมูลของคุณมากที่สุดเท่าที่จะเป็นไปได้ ประการที่สองเมื่อคุณกำลังนำข้อมูลกลับมาใช้ใหม่มักจะเป็นประโยชน์อย่างมากที่จะจินตนาการถึงชุดข้อมูลที่เหมาะสำหรับปัญหาของคุณแล้วจึงเปรียบเทียบชุดข้อมูลที่เหมาะกับชุดข้อมูลที่คุณใช้ หากคุณไม่ได้รวบรวมข้อมูลด้วยตัวคุณเองอาจมีความแตกต่างที่สำคัญระหว่างสิ่งที่คุณต้องการและสิ่งที่คุณมี สังเกตเห็นความแตกต่างเหล่านี้จะช่วยชี้แจงสิ่งที่คุณสามารถทำได้และไม่สามารถเรียนรู้จากข้อมูลที่คุณมีและอาจแนะนำข้อมูลใหม่ที่คุณควรเก็บรวบรวม

จากประสบการณ์ของผมนักวิทยาศาสตร์ทางสังคมและนักวิทยาศาสตร์ด้านข้อมูลมีแนวโน้มที่จะหันมาใช้การแทนที่อย่างแตกต่างกันมาก นักวิทยาศาสตร์ทางสังคมที่คุ้นเคยกับการทำงานกับข้อมูลที่ออกแบบมาเพื่อการวิจัยมักจะชี้ให้เห็นปัญหาเกี่ยวกับข้อมูลที่นำไปใช้ใหม่และไม่สนใจจุดแข็ง ในทางกลับกันนักวิทยาศาสตร์ข้อมูลมักจะชี้ให้เห็นถึงประโยชน์ของข้อมูลที่นำมาใช้ใหม่โดยไม่คำนึงถึงจุดอ่อนของข้อมูล ธรรมชาติวิธีที่ดีที่สุดคือไฮบริด นั่นคือนักวิจัยจำเป็นต้องเข้าใจลักษณะของแหล่งข้อมูลขนาดใหญ่ทั้งดีและไม่ดีจากนั้นหาวิธีเรียนรู้จากแหล่งข้อมูลเหล่านี้ และนั่นคือแผนสำหรับส่วนที่เหลือของบทนี้ ในส่วนถัดไปฉันจะอธิบายสิบลักษณะทั่วไปของแหล่งข้อมูลขนาดใหญ่ จากนั้นในส่วนต่อไปนี้ฉันจะอธิบายแนวทางการวิจัย 3 วิธีที่สามารถทำงานได้ดีกับข้อมูลดังกล่าว