2.3.2.6 Dirty

დიდი მონაცემთა წყაროები შეიძლება დატვირთული უსარგებლო და spam.

ზოგიერთი მკვლევარი მიიჩნევს, რომ დიდი მონაცემები, განსაკუთრებით ონლაინ წყაროების, რომლებიც ხელუხლებელი, რადგან ისინი გროვდება ავტომატურად. ფაქტობრივად, ადამიანი, რომელიც არ მუშაობდა დიდი მონაცემთა წყაროებს ვიცით, რომ ისინი ხშირად ბინძური. რომ არის, ისინი ხშირად მოიცავს მონაცემები, რომ არ ასახავს რეალურ ქმედებებს ინტერესი მკვლევარები. ბევრი სოციალური მეცნიერები უკვე იცნობს პროცესში დასუფთავების მასშტაბური სოციალური კვლევის მონაცემები, მაგრამ დასუფთავების დიდი მონაცემთა წყაროების უფრო რთული ორი მიზეზის გამო: 1) არ იყო შექმნილი მკვლევარები მკვლევარები და 2) მკვლევარებმა ზოგადად აქვს ნაკლები გაგება, თუ როგორ ისინი შეიქმნა.

საფრთხეების ბინძური ციფრული კვალი მონაცემების ილუსტრირებულია უკან და კოლეგების (2010) შესწავლა ემოციური რეაგირება თავდასხმებს 2001 წლის 11 სექტემბერს მკვლევარებმა ჩვეულებრივ შესწავლა საპასუხოდ ტრაგიკული მოვლენების გამოყენებით რეტროსპექტივა შეგროვებული მონაცემები თვეების ან წლების განმავლობაშიც კი. მაგრამ, უკან და კოლეგებს დადგინდა მუდმივი წყაროს ციფრული კვალი-the timestamped, ავტომატურად ჩაწერილი შეტყობინებები 85,000 ამერიკული pagers და ეს საშუალება მისცა მკვლევარებს შესწავლა ემოციური რეაქცია ბევრად finer უვადოდ. უკან და კოლეგებმა შექმნეს ერთი წუთით მიერ წუთიანი ემოციური ვადებს წლის 11 სექტემბრის კოდირების ემოციური შინაარსი ძალაშია შეტყობინებები პროცენტული სიტყვა დაკავშირებული (1) მწუხარებას (მაგალითად, ტირილი, მწუხარება), (2) შფოთვა (მაგალითად, აწუხებს, გააჩნია), და (3) აღშფოთება (მაგალითად, სიძულვილი, კრიტიკული). მათ აღმოაჩინეს, რომ მწუხარებას და შფოთვა მერყეობდა მთელი დღის განმავლობაში ძლიერი ნიმუში, მაგრამ, რომ არ იყო ნათელი ზრდა აღშფოთება მთელი დღის განმავლობაში. ეს კვლევა, როგორც ჩანს, მშვენიერი ილუსტრაცია ძალა მუდამ მონაცემთა წყაროებს: სტანდარტული მეთოდების გამოყენებით შეუძლებელი იქნებოდა, რომ ასეთი მაღალი რეზოლუციის ქრონოლოგია დაუყოვნებლივ რეაგირებას მოულოდნელი მოვლენაა.

ერთი წლის შემდეგ, თუმცა, Cynthia Pury (2011) შევხედე მონაცემები უფრო ყურადღებით. მან აღმოაჩინა, რომ დიდი რაოდენობით, სავარაუდოდ, გაბრაზებული შეტყობინებები გენერირდება ერთ ძალაშია და ისინი ყველა იდენტურია. აი რა იმ სავარაუდოდ გაბრაზებული შეტყობინებები განაცხადა:

"გადატვირთეთ NT მანქანა [სახელი] კაბინეტი [სახელი] ზე [ადგილმდებარეობა]: კრიტიკულ: [თარიღი და დრო]"

ეს შეტყობინებები შეაფასა გაბრაზებული, რადგან მათ შორის სიტყვა "კრიტიკული", რომელიც შეიძლება ზოგადად მიუთითებს აღშფოთება, მაგრამ არ არის ამ შემთხვევაში. მოხსნის შეტყობინებები მიერ ამ ერთი ავტომატური ძალაშია მთლიანად გამორიცხავს აშკარა ზრდა სიბრაზემ დღის განმავლობაში (ნახაზი 2.2). სხვა სიტყვებით, მთავარი შედეგი Back, Küfner, and Egloff (2010) იყო artifact ერთი ძალაშია. როგორც ამ მაგალითიდან ვხედავთ, შედარებით მარტივი ანალიზი შედარებით კომპლექსური და რთული მონაცემები აქვს პოტენციალი სერიოზულად არასწორია.

ნახაზი 2.2: სავარაუდო ტენდენციები აღშფოთება მეტი კურსი 2001 წლის 11 სექტემბერს საფუძველზე 85,000 ამერიკული pagers (უკან, Küfner და Egloff 2010 Pury 2011; უკან, Küfner და Egloff 2011). თავდაპირველად, უკან, Küfner და Egloff (2010) ცნობით ნიმუში მზარდი აღშფოთება მთელი დღის განმავლობაში. თუმცა, ყველაზე აშკარა გაბრაზებული შეტყობინებები გენერირდება ერთ ძალაშია, რომ არაერთხელ გააძევეს შემდეგი გაგზავნა: Reboot NT მანქანა [სახელი] კაბინეტი [სახელი] ზე [ადგილმდებარეობა]: კრიტიკულ: [თარიღი და დრო]. ამ გაგზავნა მოხსნა, აშკარა ზრდა აღშფოთება ქრება (Pury 2011; უკან, Küfner და Egloff 2011). ეს მაჩვენებელი არის რეპროდუქცია Fig 1B in Pury (2011).

ნახაზი 2.2: სავარაუდო ტენდენციები აღშფოთება მეტი კურსი 2001 წლის 11 სექტემბერს საფუძველზე 85,000 ამერიკული pagers (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . თავდაპირველად, Back, Küfner, and Egloff (2010) ცნობით ნიმუში მზარდი აღშფოთება მთელი დღის განმავლობაში. თუმცა, ყველაზე აშკარა გაბრაზებული შეტყობინებები გენერირდება ერთ ძალაშია, რომ არაერთხელ გააძევეს შემდეგი გაგზავნა: "გადატვირთეთ NT მანქანა [სახელი] კაბინეტი [სახელი] ზე [ადგილმდებარეობა]: კრიტიკულ: [თარიღი და დრო]". ამ გაგზავნა მოხსნა, აშკარა ზრდა აღშფოთება ქრება (Pury 2011; Back, Küfner, and Egloff 2011) . ეს მაჩვენებელი არის რეპროდუქცია Fig 1B in Pury (2011) .

მიუხედავად იმისა, რომ ბინძური მონაცემები, რომ ის უნებლიედ, როგორიცაა ერთი ხმაურიანი ძალაშია-შეიძლება მიერ გამოვლენილი გონივრულად ფრთხილად მკვლევარი, არსებობს ასევე ზოგიერთი ონლაინ სისტემები, რომ მოვიზიდოთ განზრახ სპამისგან. ეს სპამისგან აქტიურად ყალბი მონაცემები, და ხშირად განპირობებულია მოგების მუშაობა ძალიან რთული შენარჩუნება მათი სპამერთა მიიმალნენ. მაგალითად, პოლიტიკური საქმიანობის on Twitter, როგორც ჩანს, მოიცავს მინიმუმ რამდენიმე გონივრულად დახვეწილი spam, რომლის დროსაც გარკვეული პოლიტიკური მიზეზების გამო შეგნებულად გააკეთა, რომ უფრო პოპულარული, ვიდრე ფაქტობრივი არიან (Ratkiewicz et al. 2011) . მკვლევარები მუშაობენ მონაცემები, რომელიც შეიძლება შეიცავდეს განზრახ spam წინაშე გამოწვევა დამაჯერებელი მათი აუდიტორიის, რომ ისინი არ აღმოჩენილი და ამოღებულ შესაბამისი spam.

და ბოლოს, რა ითვლება ბინძური მონაცემები შეიძლება დამოკიდებული დახვეწილი გზები თქვენი კვლევის კითხვები. მაგალითად, ბევრი რედაქტირების Wikipedia ქმნის ავტომატური რობოტების (Geiger 2014) . თუ თქვენ დაინტერესებული ხართ ეკოლოგიის Wikipedia, მაშინ ამ რობოტების მნიშვნელოვანია. მაგრამ, თუ თქვენ დაინტერესებული ხართ, თუ როგორ ადამიანებს შეუწყობს Wikipedia, ამ რედაქტირების მიერ ამ რობოტების უნდა გამოირიცხოს.

საუკეთესო გზა, რათა თავიდან იქნას აცილებული წამოეგოთ ბინძური მონაცემები გვესმოდეს, თუ როგორ თქვენი მონაცემები შეიქმნა შეასრულოს მარტივი საძიებო ანალიზი, როგორიცაა მიღების მარტივი scatter ნაკვეთები.