2.3.7 Drifting

Populasi drift, pamakéan drift, sarta sistem drift nyieun teuas ngagunakeun sumber data badag pikeun diajar tren jangka panjang.

Salah sahiji kaunggulan gede loba sumber data badag nyaeta aranjeunna ngumpulkeun data ngaliwatan waktu. Élmuwan sosial nelepon jenis ieu leuwih-waktu data longitudinal data. Sarta, sacara alami, data longitudinal anu pohara penting pikeun diajar robah. Dina raraga reliably ngukur robah kitu, sistem ukuran sorangan kudu jadi stabil. Dina kecap tina sosiolog Otis Dudley Duncan, "upami Anjeun hoyong ngukur robah, teu ngarobah ukuran nu" (Fischer 2011) .

Hanjakal, loba sistem-utamana data badag sistem-aya bisnis ngarobah sakabeh waktu, hiji prosés nu kuring gé nelepon drift. Dina sababaraha hal, sistem ieu ngarobah dina tilu cara utama: drift populasi (parobahan dina anu ngagunakeun éta), drift behavioral (parobahan dina cara jalma nu maké éta), sarta sistem drift (robah dina sistem sorangan). Tilu sumber tina drift hartosna yén sagala pola dina sumber data badag bisa disababkeun ku hiji robah penting di dunya, atawa dinya bisa disababkeun ku sababaraha bentuk drift.

Sumber mimiti drift-populasina drift-disababkeun ku parobahan anu ngagunakeun sistem, sarta parobahan ieu bisa lumangsung dina duanana timescales pondok tur panjang. Contona, dina mangsa Pemilu AS Présidén 2012 proporsi tweets ngeunaan pulitik nya éta ditulis ku awéwé fluctuated ti poé ka poé (Diaz et al. 2016) . Ku kituna, naon anu bisa muncul jadi robah dina wanda nu Twitter-ayat bisa sabenerna ngan aya parobahan dina anu ngawangkong di momen nanaon. Salian fluctuations jangka pondok ieu, aya ogé geus mangrupa trend jangka panjang Grup demografi tangtu nganut tur abandoning Twitter.

Salian parobahan anu ngagunakeun sistem anu, aya ogé parobahan kumaha sistem nu digunakeun, anu Kuring nelepon drift behavioral. Contona, dina mangsa 2013 ngeusian protes Gezi di Turki, démonstran robah pamakéan maranéhanana hashtags sakumaha protés nu ngalobaan. Di dieu nu kumaha Zeynep Tufekci (2014) ngagambarkeun drift behavioral, anu manéhna bisa ngadeteksi sabab manéhna observasi kabiasaan dina Twitter na di baé:

"Naon kungsi kajadian éta nu pas protes ka janten carita dominan, angka nu gede ngarupakeun jalma ... dieureunkeun ngagunakeun hashtags iwal ngagambar perhatian kana fenomena anyar ... Sedengkeun protes terus, komo inténsif, anu hashtags maot handap. Ngawawancara wangsit dua alesan pikeun ieu. Kahiji, sakaligus dulur terang topik, hashtag ieu sakaligus superfluous na boros dina platform Twitter karakter-dugi. Kadua, hashtags anu katempo ukur jadi mangpaat pikeun attracting perhatian ka topik nu tangtu, henteu keur ngobrol ngeunaan eta. "

Ku kituna, panalungtik anu ngulik protes ku analisa tweets jeung hashtags patali protes bakal boga rasa menyimpang naon ieu lumangsung alatan drift behavioral ieu. Contona, maranéhanana bisa percaya yén sawala protes nu turun lila saméméh sabenerna turun.

Jenis katilu drift aya sistem drift. Dina hal ieu, teu rahayat ngarobah atawa ngarobah kabiasaan maranéhna, tapi sistem sorangan ngarobah. Contona, dumasar kana waktu Facebook geus ngaronjat wates dina panjang apdet status. Ku kituna, sagala ulikan longitudinal of apdet status bakal rentan ka artefak disababkeun ku robah ieu. Sistim drift téh raket patalina jeung masalah nu disebut algorithmic confounding, nu kuring gé nutupan di bagian 2.3.8.

Dicindekkeun, loba sumber data badag anu drifting kusabab parobahan anu ngagunakeun éta, dina sabaraha aranjeunna dipake, sarta di kumaha karya sistem. sumber ieu parobahan téh kadang patarosan panalungtikan metot, tapi parobahan ieu ngahesekeun kamampuh sumber data badag lagu parobahan jangka panjang dumasar kana waktu.