2.3.2.6 Nopoklik

Big ma'lumot manbalari ahamiyatsiz va spam bilan joylashtirish mumkin.

Ba'zi tadqiqotchilar ular avtomatik ravishda to'plangan, chunki katta ma'lumot manbalari, onlayn manbalardan ayniqsa, pok, deb ishonamiz. Aslida, katta ma'lumotlar manbalari bilan ishlagan odamlar tez-tez iflos, deb bilaman. Bu ular tez-tez Tadqiqotchilarning qiziqtirgan real harakatlarini aks ettirmaydi ma'lumotlarni o'z ichiga oladi, deb. Ko'pchilik ijtimoiy olimlar allaqachon ikki sabablarga ko'ra ko'proq qiyin keng ko'lamli ijtimoiy tadqiqot ma'lumotlarni tozalash, lekin katta ma'lumotlar manbalarini tozalash jarayoni bilan tanish: 1) ular tadqiqotchilar uchun tadqiqotchilar va 2) tadqiqotchilari tomonidan yaratilgan emas, umuman, qanday qilib kam tushunchaga ega ular yaratildi.

Iflos raqamli iz ma'lumotlar xavf qaytish va hamkasblari tomonidan berilgan (2010) 2001 Tadqiqotchilar odatda oy yoki hatto yillar davomida to'plangan retrospektiv ma'lumotlar yordamida fojiali voqealar javob o'rganish 11 sentyabr, hujumlariga uchun hissiy javob o'rganish. Lekin, Orqaga va hamkasblari 85,000 Amerika bir har doim-raqamli izlari-timestamped manbai, avtomatik ravishda qayd xabarlar topilmadi taklif asboblari va bu juda ham nozik vaqt hissiy javob o'qishga tadqiqotchilari yoqilgan. Orqaga va hamkasblari (1) qayg'u bilan bog'liq so'zlar foiz bilan chaqiriq xabarlar hissiy mazmunini kodlash bilan 11 sentyabr bir daqiqa-by-daqiqada hissiy xronologiyasini yaratgan (masalan, g'am yig'lab), masalan, (, (2) tashvish, tashvishli, qo'rqib) va (3) g'azab, (masalan, nafrat, tanqidiy). Ular qayg'u va tashvish kuchli naqsh holda kun davomida to'lqinli, bir tomosha deb topildi, lekin kun davomida g'azab bir ajoyib o'sish bor edi. Bu kutilmagan voqeaga darhol javob bunday yuqori aniqlikdagi xronologiyasini ega bo'lishi mumkin emas standart usullari yordamida: Bu tadqiqot har doim-to'g'risidagi ma'lumotlar manbalari hokimiyat ajoyib masal bo'lishi ko'rinadi.

Faqat bir yil o'tgach, biroq, Cynthia Pury (2011) ko'proq diqqat ma'lumotlar qaradi. U go'yoki g'azablangan xabarlarni ko'p sonli bir chaqiriq uni tomonidan hosil qilingan va ular bir xil ekanligini aniqlashdi. Bu erda o'sha go'yoki g'azablangan xabarlarni dedi nima:

"[Joyda] da kabinet [nomi] bilan Reboot NT mashinasi [nomi]: MUHIM: [Sana va vaqt]"

Ular odatda g'azabini ko'rsatadi, lekin bu holatda emas mumkin so'z "MUHIM", kiritilgan, chunki bu xabarlarni g'azablangan etiketlenmiş qilindi. Bu yagona avtomatlashtirilgan chaqiriq uni tomonidan hosil xabarlarni olishdan butunlay kuni (2.2-rasm) davomida g'azab, zohiriy ortishi bartaraf qiladi. Boshqa so'zlar bilan aytganda, asosiy natijasi Back, Küfner, and Egloff (2010) bir chaqiriq uni bir qo'lyozmasi edi. Bu, masalan, ko'rsatadi, deb, nisbatan murakkab va iflos ma'lumotlar nisbatan oddiy tahlil jiddiy noto'g'ri borish salohiyatiga ega.

2.2-shakl: g'azab bilan Taxminiy tendensiyalari 85,000 Amerika taklif asboblari asoslangan 11 sentyabr, 2001 yil davomida (qaytish, Küfner va Egloff 2010; Pury 2011; qaytish, Küfner va Egloff 2011). Originally, Orqaga, (2010) Küfner va Egloff kun davomida g'azabini oshirish, bir naqsh ma'lum qildi. MUHIM: [Sana va vaqt] [joyga] da Vazirlar Mahkamasida [nomi] Reboot NT mashinasi [nomi]: Lekin, bu zohiriy g'azablangan xabarlarni eng qayta-qayta quyidagi xabar yuborilgan bir chaqiriq uni tomonidan hosil qilingan. bu xabarni olib bilan, g'azab bilan sezilarli darajada ko'payishi (; qaytish, Küfner va Egloff 2011 Pury 2011) yo'qoladi. Bu ko'rsatkich Pury (2011) shakl 1B bir takrorlash hisoblanadi.

2.2-shakl: g'azab bilan Taxminiy tendensiyalari 85,000 Amerika taklif asboblari asoslangan 11 sentyabr, 2001 yil davomida (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Originally, Back, Küfner, and Egloff (2010) kun davomida g'azabini oshirish, bir naqsh ma'lum qildi. "Reboot NT mashinasi [nomi] kabinet [nomi] bilan [joyga] da: MUHIM: [Sana va vaqt]" Shu bilan birga, bu zohiriy g'azablangan xabarlarni eng qayta-qayta quyidagi xabar yuborilgan bir chaqiriq uni tomonidan hosil qilingan. Bu xabarni olib bilan, g'azab bilan sezilarli darajada ko'payishi yo'qoladi (Pury 2011; Back, Küfner, and Egloff 2011) . Bu ko'rsatkich shakl 1B bir takrorlash hisoblanadi Pury (2011) .

Bir shovqinli kabi beixtiyor falon yaratilgan iflos ma'lumotlar chaqiriq uni-bir oqilona ehtiyot tadqiqotchi tomonidan aniqlash esa, shuningdek, qasddan spam-ayrim onlayn tizimlar mavjud. Bu spam faol soxta ma'lumotlarni ishlab, va ko'pincha ularning spam qidirmadi juda qiyin foyda-ish bilan rag'batlantirilgan. Misol uchun, Twitter siyosiy faolligi, ayrim siyosiy sabablar qasddan ular haqiqiy ko'ra ko'proq mashhur qarash qilingan tufayli kamida ba'zi oqilona murakkab spam o'z ichiga ko'rinadi (Ratkiewicz et al. 2011) . qasddan spam bo'lishi mumkin ma'lumotlar bilan ishlash tadqiqotchilar ular aniqlangan va tegishli spam ochdik o'z tinglovchilarni ishonarli qarshiliklarga duch.

Nihoyat, deb hisoblanadi, nima iflos ma'lumotlar sizning tadqiqot masalalar bo'yicha nozik yo'llar bog'liq mumkin. Misol uchun, Vikipediyaga ko'p tahrirlar avtomatlashtirilgan bot tomonidan yaratilgan (Geiger 2014) . Agar Vikipediya ekologiyasi manfaatdor bo'lsa, bu bots muhim ahamiyatga ega. Agar insonlar Vikipediya hissa qanday manfaatdor bo'lsa, bu bot tomonidan amalga bu tahrirlar tashqari lozim.

iflos ma'lumotlar sizning ma'lumotlar kabi oddiy buzmoq uchastkalari qilish kabi oddiy, tadqiqot tahlil amalga oshirish uchun yaratilgan qanday tushunish kerak eng yaxshi yo'llari ahmoq oldini olish uchun.