2.3.1.1 บิ๊ก

แปลนี้ถูกสร้างขึ้นโดยคอมพิวเตอร์ ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

2.3.1.1 บิ๊ก

ชุดข้อมูลขนาดใหญ่เป็นหมายถึงการสิ้นสุด; พวกเขาจะไม่สิ้นสุดในตัวเอง

ครั้งแรกของสามลักษณะที่ดีของข้อมูลขนาดใหญ่เป็นที่กล่าวถึงมากที่สุดคนเหล่านี้เป็นข้อมูลขนาดใหญ่ แหล่งข้อมูลเหล่านี้สามารถเป็นใหญ่ในสามวิธีที่แตกต่างกันหลาย ๆ คนจำนวนมากข้อมูลต่อคนหรือหลายข้อสังเกตเมื่อเวลาผ่านไป มีชุดข้อมูลขนาดใหญ่ช่วยให้เฉพาะประเภทบางส่วนของเซลล์สืบพันธุ์การวิจัยการวัดการศึกษาเหตุการณ์ที่หายาก, การตรวจสอบความแตกต่างเล็ก ๆ และทำให้ประมาณการสาเหตุจากข้อมูลสังเกตการณ์ นอกจากนี้ยังดูเหมือนว่าจะนำไปสู่การประเภทเฉพาะของฉาบฉวย

สิ่งแรกที่ขนาดเป็นประโยชน์อย่างยิ่งมีการเคลื่อนไหวเกินกว่าค่าเฉลี่ยที่จะทำให้ประมาณการสำหรับกลุ่มย่อยที่เฉพาะเจาะจง ยกตัวอย่างเช่นแกรี่คิง, เจนนิเฟอร์แพนและโรเบิร์ตมอลลี่ (2013) วัดน่าจะเป็นที่โพสต์สื่อสังคมออนไลน์ในประเทศจีนจะได้รับการตรวจสอบโดยรัฐบาล ด้วยตัวเองนี้น่าจะเป็นค่าเฉลี่ยของการลบไม่เป็นประโยชน์มากสำหรับการทำความเข้าใจว่าทำไมรัฐบาลเซ็นเซอร์โพสต์บางส่วน แต่ไม่ได้คนอื่น ๆ แต่เพราะชุดของพวกเขารวมถึง 11 ล้านโพสต์คิงและเพื่อนร่วมงานยังผลิตประมาณการสำหรับความน่าจะเป็นของการเซ็นเซอร์สำหรับการโพสต์เมื่อวันที่ 85 แยกประเภท (เช่นภาพลามกอนาจารของทิเบตและการจราจรในกรุงปักกิ่ง) โดยการเปรียบเทียบความน่าจะเป็นของการเซ็นเซอร์สำหรับการโพสต์ในประเภทที่แตกต่างกันพวกเขาก็สามารถที่จะเข้าใจเพิ่มเติมเกี่ยวกับวิธีการและเหตุผลที่รัฐบาลเซ็นเซอร์บางประเภทของการโพสต์ ด้วย 11000 กระทู้ (มากกว่า 11 ล้านโพสต์) พวกเขาจะไม่ได้รับสามารถในการผลิตประมาณการหมวดหมู่เฉพาะเหล่านี้

ประการที่สองขนาดเป็นประโยชน์อย่างยิ่งสำหรับผู้ที่กำลังศึกษาของเหตุการณ์ที่หายาก ยกตัวอย่างเช่นโกลและเพื่อนร่วมงาน (2015) อยากจะศึกษาวิธีการต่าง ๆ ที่สามารถทวีตไปไวรัส เพราะน้ำตกขนาดใหญ่ของใหม่ทวิตเตอร์เป็นของหายากมากเกี่ยวกับหนึ่งใน 3,000 ที่พวกเขาต้องการที่จะศึกษามากกว่าหนึ่งพันล้านทวีตเพื่อหาน้ำตกขนาดใหญ่พอสำหรับการวิเคราะห์ของพวกเขา

ประการที่สามชุดข้อมูลขนาดใหญ่ช่วยให้นักวิจัยในการตรวจสอบความแตกต่างเล็ก ๆ ในความเป็นจริงมากให้ความสนใจกับข้อมูลขนาดใหญ่ในอุตสาหกรรมที่เป็นเรื่องเกี่ยวกับความแตกต่างเล็ก ๆ เหล่านี้: การตรวจสอบความน่าเชื่อถือความแตกต่างระหว่างอัตราการคลิกผ่าน 1% และ 1.1% ในการโฆษณาสามารถแปลเป็นล้านดอลลาร์ในรายได้เสริม ในการตั้งค่าทางวิทยาศาสตร์บางอย่างแตกต่างเล็ก ๆ ดังกล่าวอาจจะไม่ได้โดยเฉพาะอย่างยิ่งที่สำคัญ (แม้ว่าพวกเขาจะมีนัยสำคัญทางสถิติ) แต่ในการตั้งค่านโยบายบางอย่างแตกต่างเล็ก ๆ ดังกล่าวสามารถกลายเป็นสิ่งสำคัญเมื่อมองในภาพรวม ตัวอย่างเช่นถ้ามีสองแทรกแซงสุขภาพของประชาชนและเป็นหนึ่งเล็กน้อยมีประสิทธิภาพมากขึ้นกว่าที่อื่น ๆ แล้วเปลี่ยนไปใช้การแทรกแซงมีประสิทธิภาพมากขึ้นจะจบลงอย่างมากมายประหยัดของชีวิตเพิ่มเติม

สุดท้ายชุดข้อมูลขนาดใหญ่ช่วยเพิ่มความสามารถของเราที่จะทำให้ประมาณการสาเหตุจากข้อมูลสังเกตการณ์ แม้ว่าชุดข้อมูลขนาดใหญ่ไม่เปลี่ยนแปลงพื้นฐานปัญหาที่มีการทำข้อสรุปสาเหตุจากข้อมูลเชิงการจับคู่และการทดลองสองธรรมชาติเทคนิคที่นักวิจัยได้มีการพัฒนาสำหรับการเรียกร้องสาเหตุจากการสังเกตข้อมูลทั้งรับประโยชน์อย่างมากจากชุดข้อมูลขนาดใหญ่ ฉันจะอธิบายและแสดงให้เห็นถึงการเรียกร้องนี้ในรายละเอียดมากขึ้นต่อไปในบทนี้เมื่อผมอธิบายกลยุทธ์การวิจัย

แม้ว่า bigness ทั่วไปเป็นคุณสมบัติที่ดีเมื่อใช้อย่างถูกต้องฉันพบว่า bigness ทั่วไปนำไปสู่ความผิดพลาดความคิด ด้วยเหตุผลบางอย่าง bigness ดูเหมือนว่าจะนำไปสู่นักวิจัยที่จะไม่สนใจว่าข้อมูลของพวกเขาถูกสร้างขึ้น ในขณะที่ bigness ไม่ช่วยลดความจำเป็นที่จะต้องกังวลเกี่ยวกับข้อผิดพลาดแบบสุ่มก็จริงเพิ่มความจำเป็นที่จะต้องกังวลเกี่ยวกับข้อผิดพลาดของระบบที่ชนิดของข้อผิดพลาดที่ผมจะอธิบายเพิ่มเติมด้านล่างที่เกิดจากอคติในวิธีการที่ข้อมูลจะถูกสร้างและเก็บรวบรวม ในชุดข้อมูลที่มีขนาดเล็กทั้งข้อผิดพลาดแบบสุ่มและความผิดพลาดระบบจะมีความสำคัญ แต่ในชุดข้อมูลที่มีขนาดใหญ่ผิดพลาดแบบสุ่มสามารถเฉลี่ยออกไปและข้อผิดพลาดของระบบครอบงำ นักวิจัยที่ไม่ได้คิดเกี่ยวกับข้อผิดพลาดระบบจะสิ้นสุดการใช้ชุดข้อมูลขนาดใหญ่ของพวกเขาที่จะได้รับการประมาณการที่แม่นยำของสิ่งที่ผิด; พวกเขาจะไม่ถูกต้องแม่นยำ (McFarland and McFarland 2015)