შემდგომი კომენტარი

ეს განყოფილება განკუთვნილია გამოყენებული იქნას, როგორც მინიშნება, ვიდრე უნდა ჩამოყალიბდეს ნარატივი.

  • შესავალი (2.1)

ერთი სახის აღნიშნავენ რა, რომ არ შედის ამ თავში არის ეთნოგრაფიას. დამატებითი ეთნოგრაფიის ციფრული ფართები ვხედავ Boellstorff et al. (2012) , და უფრო ეთნოგრაფიის შერეული ციფრული და ფიზიკური ფართები ვხედავ Lane (2016) .

  • დიდი მონაცემები (სექცია 2.2)

როდესაც თქვენ repurposing მონაცემებით, ორი ფსიქიკური tricks, რომელიც დაგეხმარებათ ესმით შესაძლო პრობლემები, რომელიც შეიძლება ექმნებათ. პირველი, თქვენ შეგიძლიათ ვცდილობთ წარმოვიდგინოთ იდეალური ნაკრებს თქვენი პრობლემა და შეადარეთ, რომ ნაკრებს, რომ თქვენ იყენებთ. როგორ არიან ისინი მსგავსი და როგორ არიან ისინი სხვადასხვა? თუ თქვენ არ შეგროვება თქვენი მონაცემები თავს, სავარაუდოდ, არსებობს, რომ იყოს განსხვავება რა გსურთ და რა გაქვთ. მაგრამ, თქვენ უნდა გადაწყვიტოს, თუ ეს განსხვავებები მცირე თუ დიდი.

მეორე, გვახსოვდეს, რომ ვინმე შექმნა და შეგროვილი თქვენი მონაცემები რატომღაც. თქვენ უნდა ვეცადოთ, რომ გავიგოთ მათი მსჯელობა. ამ სახის საპირისპირო საინჟინრო დაგეხმარებათ შესაძლო პრობლემები და გადახრები თქვენს repurposed მონაცემები.

არ არსებობს ერთიანი კონსენსუსის განმარტება "დიდი მონაცემები", მაგრამ ბევრი დეფინიციად ფოკუსირება 3 Vs: მოცულობა, სხვადასხვა, და სიჩქარე (მაგალითად, Japec et al. (2015) ). ნაცვლად იმისა, რომ მახასიათებლები მონაცემები, ჩემი განმარტება აქცენტს უფრო მეტი რატომ მონაცემები შეიქმნა.

ჩემი ჩართვის ადმინისტრაციული მონაცემები შიგნით გარეშე დიდი მონაცემები ცოტა უჩვეულოდ. სხვები, ვინც არ გააკეთა ამ შემთხვევაში, მოიცავს Legewie (2015) , Connelly et al. (2016) , და Einav and Levin (2014) . დამატებითი ღირებულების შესახებ ადმინისტრაციული მონაცემები ინფორმაციისთვის იხილეთ Card et al. (2010) , Taskforce (2012) , და Grusky, Smeeding, and Snipp (2015) .

იყიდება კალენდარი ადმინისტრაციული კვლევის მთავრობის შიგნით სტატისტიკური სისტემის, კერძოდ, აშშ აღწერის ბიუროს, ვხედავ Jarmin and O'Hara (2016) . წიგნი სიგრძე მკურნალობის ადმინისტრაციული ჩანაწერები კვლევის შვედეთის სტატისტიკის, ვხედავ Wallgren and Wallgren (2007) .

თავი, მე მოკლედ შედარებით ტრადიციული გამოკითხვა, როგორიცაა ზოგადი სოციოლოგიური კვლევის (GSS) სოციალური მედია მონაცემთა წყარო, როგორიცაა Twitter. იყიდება საფუძვლიანი და ფრთხილად შედარება ტრადიციული კვლევა და სოციალური მედიის მონაცემებით, ვხედავ Schober et al. (2016) .

  • საერთო მახასიათებლები დიდი მონაცემები (ნაწილი 2.3)

ეს 10 მახასიათებლები დიდი მონაცემები უკვე აღწერილი სხვადასხვა გზით, სხვადასხვა ავტორები. წერა, რომელიც გავლენას ჩემი აზროვნება ამ საკითხებზე მოიცავს: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , და Goldstone and Lupyan (2016) .

მთელი ამ თავში, მე გამოიყენება ტერმინი ციფრული კვალი, რაც, ვფიქრობ, შედარებით ნეიტრალური. კიდევ ერთი პოპულარული ვადა ციფრული კვალი არის ციფრული ნაკვალევი (Golder and Macy 2014) , მაგრამ, როგორც Hal Abelson, კენ Ledeen და ჰარი Lewis (2008) აღვნიშნო, უფრო სწორი ტერმინი, ალბათ, ციფრული თითის ანაბეჭდები. როდესაც თქვენ შექმნათ ნაკვალევი, მოგეხსენებათ, თუ რა ხდება და თქვენი ნაკვალევი ვერ ზოგადად სათავეს პირადად. იგივე არ არის ჭეშმარიტი თქვენი ციფრული კვალი. ფაქტობრივად, თქვენ ტოვებენ კვალს ყველა დროის შესახებ, რომელიც თქვენ ძალიან მცირე ცოდნა. და მიუხედავად იმისა, რომ ეს კვალი არ აქვს თქვენი სახელი, ისინი ხშირ შემთხვევაში შეიძლება დაკავშირებული უკან თქვენ. სხვა სიტყვებით, ისინი უფრო თითის ანაბეჭდები: უხილავი და პირადად საიდენტიფიკაციო.

დიდი

დამატებითი რატომ დიდი მონაცემების, გაწევა სტატისტიკური ტესტები პრობლემატური, ვხედავ Lin, Lucas, and Shmueli (2013) და McFarland and McFarland (2015) . ეს საკითხები უნდა მოჰყვეს მკვლევარები პრაქტიკულ მნიშვნელობას ვიდრე სტატისტიკური მნიშვნელობა.

ყოველთვის

როდესაც გათვალისწინებით მუდმივი მონაცემები, მნიშვნელოვანია, განიხილოს თუ არა თქვენ შედარებით ზუსტად იგივე ადამიანი დროთა განმავლობაში ან თუ შედარებით გარკვეული იცვლება ადამიანთა ჯგუფი; იხილეთ, მაგალითად, Diaz et al. (2016) .

არარეაქტიული

კლასიკური წიგნი არასამთავრობო რეაქტიული ღონისძიებების Webb et al. (1966) . მაგალითები წიგნში წინასწარი თარიღი ციფრული ასაკი, მაგრამ ისინი მაინც გასანათებელი. მაგალითად ადამიანი იცვლება მათი ქცევის გამო თანდასწრებით მასობრივი თვალთვალის, ვხედავ Penney (2016) და Brayne (2014) .

არასრული

დამატებითი ჩანაწერი კავშირი, ვხედავ Dunn (1946) და Fellegi and Sunter (1969) (ისტორიული) და Larsen and Winkler (2014) (თანამედროვე). მსგავსი მიუახლოვდა ასევე შემუშავდა კომპიუტერულ მეცნიერებათა ქვეშ სახელები, როგორიცაა მონაცემთა deduplication, მაგალითად საიდენტიფიკაციო, სახელი შესატყვისი, დუბლიკატი გამოვლენის და დუბლიკატი ჩანაწერი გამოვლენის (Elmagarmid, Ipeirotis, and Verykios 2007) . ასევე არსებობს კონფიდენციალურობის შენარჩუნების მიდგომები ჩაწერას კავშირი, რომელიც არ საჭიროებს გადაცემა პირადად საიდენტიფიკაციო ინფორმაციას (Schnell 2013) . Facebook ასევე შეიმუშავა გაგრძელება უკავშირებენ მათი ჩანაწერების კენჭისყრის ქცევა; ეს გაკეთდა შეაფასოს ექსპერიმენტი, რომელიც გეტყვით შესახებ თავი 4 (Bond et al. 2012; Jones et al. 2013) .

დამატებითი შენება მოქმედების, ვხედავ Shadish, Cook, and Campbell (2001) , თავი 3.

მიუწვდომელი

დამატებითი on AOL ძიება ჟურნალი მარცხმა, ვხედავ Ohm (2010) . მე გთავაზობთ რჩევებს შესახებ პარტნიორობით კომპანიები და მთავრობები თავი 4, როდესაც მე აღწერს ექსპერიმენტი. რიგი ავტორები გამოთქვა შეშფოთება კვლევა, რომელიც ეყრდნობა მიუწვდომელი მონაცემები, ვხედავ Huberman (2012) და boyd and Crawford (2012) .

ერთი კარგი გზა უნივერსიტეტის მკვლევარები შეიძინოს მონაცემების ხელმისაწვდომობის მუშაობა კომპანია სტაჟიორად ან გამოჩენის მკვლევარი. გარდა ამისა, საშუალებას იძლევა მონაცემების ხელმისაწვდომობა, ამ პროცესში ასევე დაეხმარება მკვლევარი მეტი, თუ როგორ მონაცემები შეიქმნა, რომელიც მნიშვნელოვანია ანალიზი.

არასამთავრობო წარმომადგენელი

არასამთავრობო წარმომადგენლობის არის მთავარი პრობლემა მკვლევარები და მთავრობები, რომელთაც სურთ განცხადებები გააკეთეს მთელ მოსახლეობას. ეს არის ნაკლებად შეშფოთების კომპანიები, რომლებიც, როგორც წესი, ორიენტირებულია მათი მომხმარებლებს. მეტი, თუ როგორ სტატისტიკა ნიდერლანდების საკითხს არასამთავრობო წარმომადგენლობის ბიზნესის დიდი მონაცემები, ვხედავ Buelens et al. (2014) .

თავი 3, მე აღწერს შერჩევის და შეფასების ბევრად უფრო დეტალურად. მაშინაც კი, თუ მონაცემები არასამთავრობო წარმომადგენელი, გარკვეულ პირობებში, ისინი შეიძლება შეწონილი წარმოების კარგი შეფასებები.

Drifting

სისტემა drift ძალიან რთულია, რომ გარედან. თუმცა, MovieLens პროექტის (განხილული უფრო თავი 4) უკვე აწარმოებს მეტი 15 წლის განმავლობაში აკადემიური კვლევითი ჯგუფი. აქედან გამომდინარე, ისინი არ არის დოკუმენტირებული და მიაწოდა ინფორმაცია ისე, რომ სისტემა განვითარდა დროთა განმავლობაში და როგორ შეიძლება გავლენა ანალიზი (Harper and Konstan 2015) .

რიგი მეცნიერები ორიენტირებულია drift in Twitter: Liu, Kliman-Silver, and Mislove (2014) და Tufekci (2014) .

ალგორითმულად შეშფოთნეს

მე პირველად მოვისმინე ტერმინი "ალგორითმულად შეცბუნებული" მიერ ჯონ Kleinberg in განხილვა. მთავარი იდეა performativity არის, რომ ზოგიერთი სოციალური მეცნიერების თეორიები "ძრავები არ კამერები" (Mackenzie 2008) . რომ არის, ისინი რეალურად აყალიბებენ მსოფლიოში, ვიდრე უბრალოდ ხელში იგი.

Dirty

სამთავრობო სტატისტიკური უწყებების მოვუწოდებთ მონაცემები დასუფთავების, სტატისტიკური მონაცემების რედაქტირებისთვის. De Waal, Puts, and Daas (2014) აღწერს სტატისტიკური მონაცემების რედაქტირების ტექნიკას შემუშავებული კვლევის მონაცემები და შეამოწმოს, თუ რამდენად ისინი გამოიყენება დიდი მონაცემთა წყაროები და Puts, Daas, and Waal (2015) წარმოგიდგენთ რამდენიმე იგივე იდეები უფრო ფართო აუდიტორიის წინაშე.

გარკვეული მაგალითები კვლევების ორიენტირებულია spam in Twitter, Clark et al. (2016) და Chu et al. (2012) . და ბოლოს, Subrahmanian et al. (2016) აღწერს შედეგები DARPA Twitter Bot გამოწვევა.

მგრძნობიარე

Ohm (2015) განიხილავს ადრე კვლევა იდეა გასაცვლელად და სთავაზობს მრავალ ფაქტორს ტესტი. ოთხი ფაქტორი ის სთავაზობს არიან: ალბათობა ზიანი; ალბათობა ზიანი; ყოფნა კონფიდენციალური ურთიერთობა; და თუ არა რისკის ასახავს მაჟორიტარი შეშფოთება.

  • დათვლა რამ (სექცია 2.4.1)

Farber სასწავლო ტაქსი ნიუ იორკში დაფუძნებული იყო ადრე კვლევის Camerer et al. (1997) , რომელიც გამოიყენება სამი სხვადასხვა ფონდის ნიმუშები ქაღალდის მოგზაურობა sheets ქაღალდის ფორმები გამოიყენება მძღოლებს ჩაწერას მოგზაურობა დაწყების დროს, ბოლოს დროს და ტარიფს. ეს ადრე კვლევამ აჩვენა, რომ მძღოლებს როგორც ჩანს, სამიზნე წყარო: ისინი მუშაობდნენ ნაკლები დღეებში, სადაც მათი ხელფასი გაცილებით მაღალი იყო.

Kossinets and Watts (2009) გამახვილდა მიზეზებთან homophily სოციალური ქსელები. იხილეთ Wimmer and Lewis (2010) სხვადასხვა მიდგომა იგივე პრობლემა, რომელიც იყენებს მონაცემების Facebook.

მომდევნო სამუშაო, მეფე და კოლეგებს შესწავლილი ონლაინ ცენზურა ჩინეთში (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . იყიდება დაკავშირებული მიდგომა საზომი ონლაინ ცენზურა ჩინეთში, ვხედავ Bamman, O'Connor, and Smith (2012) . დამატებითი სტატისტიკური მეთოდები, როგორიცაა ერთი გამოიყენება King, Pan, and Roberts (2013) , რათა დადგინდეს განწყობა 11 მილიონი შეტყობინება, ვხედავ Hopkins and King (2010) . დამატებითი ზედამხედველობით სასწავლო, ვხედავ James et al. (2013) (ნაკლებად ტექნიკური) და Hastie, Tibshirani, and Friedman (2009) (ტექნიკური).

  • პროგნოზირება (სექცია 2.4.2)

პროგნოზირება არის დიდი ნაწილი სამრეწველო მონაცემები მეცნიერების (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . ერთი ტიპის პროგნოზირება, რომლებიც ხშირად კეთდება სოციალური მკვლევარები დემოგრაფიული პროგნოზის, მაგალითად Raftery et al. (2012) .

Google გრიპის ტენდენციები არ იყო პირველი პროექტი, გამოიყენოთ ძებნის მონაცემები nowcast გრიპის გავრცელება. სინამდვილეში, მკვლევარები ამერიკის შეერთებულ შტატებში (Polgreen et al. 2008; Ginsberg et al. 2009) და შვედეთის (Hulth, Rydevik, and Linde 2009) აღმოაჩინა, რომ გარკვეული ძიება პირობები (მაგალითად, "გრიპი") პროგნოზით, ეროვნული საზოგადოებრივი ჯანდაცვის ზედამხედველობის მონაცემები ადრე გაათავისუფლეს. ამის შემდეგ ბევრი, ბევრი სხვა პროექტები შევეცადე გამოყენება ციფრული კვალი მონაცემები დაავადებათა კონტროლის გამოვლენის, ვხედავ Althouse et al. (2015) მიმოხილვა.

გარდა იმისა, რომ გამოყენებით ციფრული კვალი მონაცემების პროგნოზირება ჯანმრთელობის შედეგების, არსებობს ასევე დიდი რაოდენობით სამუშაო გამოყენებით Twitter მონაცემთა პროგნოზირება არჩევნების შედეგებს; მიმოხილვა იხილეთ Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (ჩ. 7), და Huberty (2015) .

ძიების გამოყენებით მონაცემების პროგნოზირების გრიპის გავრცელების და გამოყენების Twitter მონაცემთა პროგნოზირება არჩევნების ორივე მაგალითები გამოყენების გარკვეული სახის ციფრული კვალი პროგნოზირება გარკვეული სახის მოვლენა მსოფლიოში. არსებობს უზარმაზარი რიგი კვლევები, რომლებსაც აქვთ ამ ზოგადი სტრუქტურა. მაგიდის 2.5 მოიცავს რამდენიმე სხვა მაგალითები.

მაგიდის 2.5: ნაწილობრივი სია კვლევების გამოყენება ზოგიერთი ციფრული კვალი პროგნოზირება ზოგიერთი ღონისძიება.
ციფრული კვალი შედეგი Citation
twitter სალაროებში შემოსავლების ფილმები, აშშ Asur and Huberman (2010)
ძებნა ჟურნალები გაყიდვების ფილმები, მუსიკა, წიგნები, და ვიდეო თამაშები, აშშ Goel et al. (2010)
twitter დოუ ჯონსის ინდუსტრიული საშუალო (აშშ საფონდო ბაზარზე) Bollen, Mao, and Zeng (2011)
  • დაახლოება ექსპერიმენტი (სექცია 2.4.3)

ჟურნალი PS პოლიტიკურ მეცნიერებათა ჰქონდა სიმპოზიუმი დიდი მონაცემები, მიზეზობრივი დასკვნა და ფორმალური თეორია და Clark and Golder (2015) უყრის თითოეულ წვლილი. ჟურნალში მაცნე ეროვნული აკადემიის მეცნიერებათა ამერიკის შეერთებული შტატების ჰქონდა სიმპოზიუმი მიზეზობრივი დასკვნა და დიდი მონაცემები და Shiffrin (2016) უყრის თითოეულ წვლილი.

თვალსაზრისით ბუნებრივი ექსპერიმენტი, Dunning (2012) უზრუნველყოფს შესანიშნავი წიგნი სიგრძე მკურნალობა. დამატებითი გამოყენებით ვიეტნამის პროექტი ლატარიის როგორც ბუნებრივი ექსპერიმენტი, ვხედავ Berinsky and Chatfield (2015) . მანქანა სწავლის მიდგომები, რომ ცდილობენ ავტომატურად აღმოჩენა ბუნებრივი ექსპერიმენტი შიგნით დიდი მონაცემები, ვხედავ Jensen et al. (2008) და Sharma, Hofman, and Watts (2015) .

თვალსაზრისით შესაბამისი, for ოპტიმისტური მიმოხილვა, ვხედავ Stuart (2010) , და პესიმისტური მიმოხილვა იხილეთ Sekhon (2009) . უფრო შესაბამისი, როგორც ერთგვარი pruning, ვხედავ Ho et al. (2007) . წიგნები, უზრუნველყოს შესანიშნავი მკურნალობის შესაბამისი, ვხედავ Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , და Imbens and Rubin (2015) .