2.3.7 ดริฟท์

การเลื่อนลอยการใช้งานและการลอยลำของระบบทำให้ยากที่จะใช้แหล่งข้อมูลขนาดใหญ่เพื่อศึกษาแนวโน้มในระยะยาว

หนึ่งในข้อได้เปรียบที่ยอดเยี่ยมของแหล่งข้อมูลขนาดใหญ่จำนวนมากคือพวกเขารวบรวมข้อมูลเมื่อเวลาผ่านไป นักวิทยาศาสตร์สังคมเรียกว่าข้อมูล ตามยาวตาม ช่วงเวลานี้ และตามธรรมชาติแล้วข้อมูลตามยาวเป็นสิ่งสำคัญสำหรับการศึกษาการเปลี่ยนแปลง เพื่อให้สามารถวัดการเปลี่ยนแปลงได้อย่างน่าเชื่อถืออย่างไรก็ตามระบบการวัดต้องมีเสถียรภาพ ในคำพูดของนักสังคมวิทยา Otis Dudley Duncan "ถ้าคุณต้องการวัดการเปลี่ยนแปลงอย่าเปลี่ยนมาตรการ" (Fischer 2011)

น่าเสียดายที่ระบบข้อมูลขนาดใหญ่จำนวนมากโดยเฉพาะระบบธุรกิจกำลังเปลี่ยนแปลงอยู่ตลอดเวลาซึ่งเป็นกระบวนการที่ฉันเรียกว่า drift โดยเฉพาะอย่างยิ่งระบบเหล่านี้มีการเปลี่ยนแปลงในสามวิธีหลัก ได้แก่ การ เลื่อนลอยของประชากร (เปลี่ยนผู้ที่ใช้พวกเขา) การ เปลี่ยนแปลง ทางพฤติกรรม (เปลี่ยนวิธีที่ผู้คนกำลังใช้งาน) และการ เลื่อนระบบ (การเปลี่ยนแปลงในระบบ) ทั้งสามแหล่งที่มาของการลอยหมายความว่ารูปแบบใด ๆ ในแหล่งข้อมูลขนาดใหญ่อาจเกิดจากการเปลี่ยนแปลงที่สำคัญในโลกหรืออาจเกิดจากการล่องลอยบางรูปแบบ

แหล่งที่มาแรกของการลอยลำของประชากรแบบลอยตัวเกิดจากการเปลี่ยนแปลงในผู้ใช้ระบบและการเปลี่ยนแปลงเหล่านี้อาจเกิดขึ้นได้ทั้งระยะสั้นและระยะยาว ตัวอย่างเช่นในระหว่างการเลือกตั้งประธานาธิบดีสหรัฐฯในปีพ. ศ. 2555 สัดส่วนของทวีตเกี่ยวกับการเมืองที่เขียนโดยผู้หญิงมีความผันผวนในแต่ละวัน (Diaz et al. 2016) ดังนั้นสิ่งที่ดูเหมือนจะเป็นการเปลี่ยนแปลงอารมณ์ของ Twitter-verse อาจเป็นเพียงการเปลี่ยนแปลงในสิ่งที่กำลังพูดอยู่ในขณะใด ๆ นอกเหนือจากความผันผวนในระยะสั้นเหล่านี้แล้วกลุ่มผู้เข้าชมบางกลุ่มยังยอมรับและละทิ้ง Twitter ในระยะยาว

นอกเหนือจากการเปลี่ยนแปลงในผู้ที่ใช้ระบบแล้วยังมีการเปลี่ยนแปลงเกี่ยวกับวิธีการใช้ระบบซึ่งผมเรียกใช้พฤติกรรมล่องลอย ตัวอย่างเช่นในช่วงการประท้วง Occupy Gezi 2013 ในตุรกีผู้ประท้วงได้เปลี่ยนแปลงการใช้ hashtags ในขณะที่การประท้วงได้มีการพัฒนาขึ้น นี่เป็นวิธีที่ Zeynep Tufekci (2014) บรรยายถึงพฤติกรรมการล่องลอยซึ่งเธอสามารถตรวจพบได้เนื่องจากสังเกตพฤติกรรมใน Twitter และในตัวบุคคล:

"สิ่งที่เกิดขึ้นก็คือทันทีที่การประท้วงกลายเป็นเรื่องราวที่โดดเด่นผู้คนจำนวนมากก็หยุดใช้แฮชแท็กยกเว้นเพื่อดึงดูดความสนใจไปสู่ปรากฏการณ์ใหม่ ... ในขณะที่การประท้วงยังคงเกิดขึ้นและรุนแรงขึ้นแฮชแท็กก็เสียชีวิตลง การสัมภาษณ์พบว่าสองเหตุผลนี้ อันดับแรกเมื่อทุกคนรู้จักหัวข้อนี้แฮชแท็กก็ไม่จำเป็นและสิ้นเปลืองในแพลตฟอร์ม Twitter ที่ จำกัด ตัวอักษร ประการที่สองแฮชแท็กถูกมองว่าเป็นประโยชน์สำหรับการดึงดูดความสนใจเฉพาะหัวข้อเท่านั้นไม่ใช่เพื่อพูดถึงเรื่องนี้ "

ดังนั้นนักวิจัยที่ได้รับการเรียนการประท้วงโดยการวิเคราะห์ทวีตกับแฮชแท็กที่เกี่ยวข้องกับการประท้วงจะมีความรู้สึกที่บิดเบี้ยวของสิ่งที่เกิดขึ้นเนื่องจากการดริฟท์พฤติกรรมนี้ ตัวอย่างเช่นพวกเขาอาจจะเชื่อว่าการอภิปรายของการประท้วงลดลงนานก่อนที่จะลดลงจริง

ประเภทที่สามของการล่องลอยคือการล่องลอยของระบบ ในกรณีนี้ไม่ใช่การเปลี่ยนแปลงหรือการเปลี่ยนแปลงพฤติกรรมของผู้คน แต่ระบบเปลี่ยนเอง ตัวอย่างเช่นเมื่อเวลาผ่านไปเฟสบุ๊คได้เพิ่มขีดจำกัดความยาวของการอัปเดตสถานะ ดังนั้นการศึกษาตามยาวของการอัปเดตสถานะจะมีความเสี่ยงต่อสิ่งประดิษฐ์ที่เกิดจากการเปลี่ยนแปลงนี้ ล่องลอยของระบบมีความสัมพันธ์กับปัญหาที่เรียกว่าอัลกอริธึมสับสนซึ่งฉันจะกล่าวถึงในส่วน 2.3.8

สรุปได้ว่าแหล่งข้อมูลขนาดใหญ่จำนวนมากล่องลอยเนื่องจากการเปลี่ยนแปลงในผู้ที่กำลังใช้พวกเขาในวิธีการใช้งานและวิธีการทำงานของระบบ แหล่งที่มาของการเปลี่ยนแปลงเหล่านี้เป็นคำถามที่น่าสนใจบางครั้งในการวิจัย แต่การเปลี่ยนแปลงเหล่านี้ทำให้ความสามารถของแหล่งข้อมูลขนาดใหญ่สามารถติดตามการเปลี่ยนแปลงในระยะยาวได้เมื่อเวลาผ่านไป