Yderligere kommentarer

Dette afsnit er beregnet til at blive brugt som reference, i stedet for at blive læst som en fortælling.

  • Introduktion (afsnit 5.1)

Masse samarbejde blander ideer fra borger videnskab, crowdsourcing, og kollektiv intelligens. Citizen videnskab betyder normalt involverer "borgere" (dvs. ikke-forskere) i den videnskabelige proces (Crain, Cooper, and Dickinson 2014) . Crowdsourcing betyder normalt at tage et problem normalt løses inden for en organisation og i stedet outsource det til en menneskemængde (Howe 2009) . Kollektiv intelligens betyder normalt grupper af personer, der handler kollektivt på måder, der synes intelligent (Malone and Bernstein 2015) . Nielsen (2012) er en vidunderlig bog-længde indføring i kraft af masse samarbejde for videnskabelig forskning.

Der er mange typer af masse samarbejde, som ikke passer pænt ind i de tre kategorier, som jeg har foreslået, og jeg tror, ​​tre fortjener særlig opmærksomhed, fordi de kan være nyttige i social forskning på et tidspunkt. Et eksempel er forudsigelse markeder, hvor deltagerne køber og fagentrepriser, der kan indløses baseret på resultater, der opstår i verden (Wolfers and Zitzewitz 2004; Arrow et al. 2008) . Forudsigelse markeder er ofte brugt af virksomheder og regeringer til at forudse, og forudsige markederne er også blevet brugt af sociale forskere til at forudsige replikabilitet af publicerede studier i psykologi (Dreber et al. 2015) .

Et andet eksempel, der ikke passer godt ind i min kategorisering ordning er polymath projektet, hvor forskere samarbejdede hjælp af blogs og wikis til at bevise nye matematiske teoremer (Gowers and Nielsen 2009; Cranshaw and Kittur 2011; Nielsen 2012; Kloumann et al. 2016) . Den Polymath projektet er på nogle måder ligner Netflix-prisen, men i deltagerne polymath projektet mere aktivt bygget på delløsninger andres.

Et tredje eksempel, der ikke passer godt ind i min kategorisering ordningen er tidsafhængige mobiliseringer såsom Defense Advanced Research Projects Agency (DARPA) Netværk Challenge (dvs. den røde ballon Challenge). For mere om disse tid følsomme mobiliseringer se Pickard et al. (2011) , Tang et al. (2011) , og Rutherford et al. (2013) .

  • Menneskelig beregning (afsnit 5.2)

Udtrykket "menneskelig beregning" kommer ud af arbejde udført af dataloger, og forstå kontekst bag denne forskning vil forbedre din evne til at gå efter problemer, der måtte være modtagelig for det. For visse opgaver, computere er utrolig kraftfuld med kapaciteter langt overstiger selv ekspert mennesker. For eksempel i skak, kan computere slå selv de bedste store mestre. Men-og det er mindre godt værdsat af samfundsforskere-til andre opgaver, computere er faktisk meget værre end mennesker. Med andre ord, lige nu er du bedre end selv de mest avancerede computer på visse opgaver, der involverer behandling af billeder, video, lyd og tekst. Således-som blev illustreret af en vidunderlig XKCD tegneserie-der er opgaver, der er nemt for computere og svært for folk, men der er også opgaver, der er svært for computere og let for folk (Figur 5.13). Computer forskere, der arbejder på disse hårdt for-computere-let-til-menneskelige opgaver derfor indså, at de kunne omfatte mennesker i deres beregningsmæssige proces. Her er hvordan Luis von Ahn (2005) beskrevet menneskelig beregning, da han først opfandt udtrykket i sin afhandling: ". Et paradigme for at udnytte den menneskelige processorkraft til at løse problemer, at computere endnu ikke kan løse"

Figur 5.13: For nogle opgaver computere er fantastiske, der overstiger evnen af ​​menneskelige eksperter. Men for andre opgaver, kan almindelige mennesker udkonkurrerer selv avancerede computere systemer. problemer Storstilede der involverer opgaver, der er svært for computere og let for mennesker er velegnet til menneskelig beregning. Bruges henhold til de vilkår, der er beskrevet her: http://xkcd.com/license.html

Figur 5.13: For nogle opgaver computere er fantastiske, der overstiger evnen af ​​menneskelige eksperter. Men for andre opgaver, kan almindelige mennesker udkonkurrerer selv avancerede computere systemer. problemer Storstilede der involverer opgaver, der er svært for computere og let for mennesker er velegnet til menneskelig beregning. Bruges henhold til de vilkår, der er beskrevet her: http://xkcd.com/license.html

Ved denne definition Foldit-som jeg beskrev i afsnittet om åbne indkaldelser-kan betragtes som en menneskelig beregning projekt. Jeg vælger dog at kategorisere Foldit som en åben indkaldelse, fordi det kræver særlige færdigheder, og det tager den bedste løsning bidrog snarere end at bruge en split-anvende-kombinere strategi.

For en fremragende bog længde behandling af human beregning, i den mest generelle forstand, se Law and Ahn (2011) . Kapitel 3 i Law and Ahn (2011) har en interessant diskussion af mere komplekse kombinerer trin end dem i dette kapitel.

Udtrykket "split-anvende-kombinere" blev brugt af Wickham (2011) til at beskrive en strategi for statistisk databehandling, men det perfekt indfanger processen med mange menneskelige beregnings- projekter. Opdelingen ansøge-kombinere strategi ligner MapReduce rammer udviklet på Google (Dean and Ghemawat 2004; Dean and Ghemawat 2008) .

To kloge menneskelige beregnings projekter, som jeg ikke havde plads til at diskutere, er ESP Spil (Ahn and Dabbish 2004) og reCAPTCHA (Ahn et al. 2008) . Begge disse projekter fundet kreative måder at motivere deltagerne til at give etiketter på billeder. Men begge disse projekter også rejst etiske spørgsmål, fordi i modsætning Galaxy Zoo, har deltagerne i ESP Spil og reCAPTCHA ikke, hvordan deres data blev brugt (Lung 2012; Zittrain 2008) .

Inspireret af ESP spil, har mange forskere forsøgt at udvikle andre "spil med et formål" (Ahn and Dabbish 2008) (dvs. "menneske-baserede beregningsmetoder spil" (Pe-Than, Goh, and Lee 2015) ), der kan være bruges til at løse en række andre problemer. Hvad disse "spil med et formål" har til fælles er, at de forsøger at gøre de opgaver, der er involveret i menneskelig beregning fornøjelig. Således, mens ESP Spillet deler samme split-gælder-kombinere struktur med Galaxy Zoo, det adskiller sig i, hvordan deltagerne er motiverede-fun vs. ønske om at hjælpe videnskaben.

Min beskrivelse af Galaxy Zoo trækker på Nielsen (2012) , Adams (2012) , Clery (2011) , og Hand (2010) , og min præsentation af forskningsresultater mål for Galaxy Zoo blev forenklet. For mere om historien om galaksen klassificering i astronomi og hvordan Galaxy Zoo fortsætter denne tradition, se Masters (2012) og Marshall, Lintott, and Fletcher (2015) . Bygning på Galaxy Zoo, afsluttede forskerne Galaxy Zoo 2, som indsamlet mere end 60 millioner mere komplekse morfologiske klassifikationer fra frivillige (Masters et al. 2011) . Endvidere de forgrenet ud i problemer uden for galaksen morfologi herunder udforske overfladen af ​​månen, der søger efter planeter, og transskribere gamle dokumenter. I øjeblikket er alle deres projekter indsamlet på www.zooniverse.org (Cox et al. 2015) . Et af de projekter-Snapshot Serengeti-dokumenterer, at Galaxy Zoo-type klassificering billede projekter også kan gøres for miljøforskning (Swanson et al. 2016) .

For forskere planlægger at bruge en mikro-opgave arbejdsmarked (f.eks Amazon Mechanical Turk) for et menneske beregning projekt, Chandler, Paolacci, and Mueller (2013) og Wang, Ipeirotis, and Provost (2015) tilbyder gode råd om opgaven design og andre relaterede emner.

Forskere er interesserede i at skabe det, jeg har kaldt anden generation menneskelige beregnings-systemer (fx systemer, der bruger menneskelige etiketter til at træne en maskine learning model) kunne være interesseret i Shamir et al. (2014) (for eksempel ved hjælp af lyd) og Cheng and Bernstein (2015) . Desuden kan disse projekter gøres med åbne indkaldelser, hvorved forskere konkurrerer om at skabe machine learning modeller med den største forudsigende ydeevne. For eksempel kørte Galaxy Zoo teamet en åben indkaldelse og fundet en ny tilgang, der klaret sig bedre end man udviklet i Banerji et al. (2010) ; se Dieleman, Willett, and Dambre (2015) for yderligere oplysninger.

  • Åbne indkaldelser (afsnit 5.3)

Åbne indkaldelser er ikke nye. Faktisk er en af ​​de mest kendte åbne indkaldelser går tilbage til 1714, da Storbritanniens Parlamentet skabte The Længdegrad Prize for alle, der kunne udvikle en måde at bestemme længdegraden for et skib på havet. Problemet snuble mange af de største videnskabsmænd i dag, herunder Isaac Newton, og den vindende løsning blev til sidst indgives af en urmager fra landet, der nærmede sig problemet anderledes end forskere, der blev fokuseret på en løsning, der på en måde ville indebære astronomi (Sobel 1996) . Som dette eksempel illustrerer, en grund til, at åbne indkaldelser menes at fungere så godt, er, at de giver adgang til mennesker med forskellige perspektiver og færdigheder (Boudreau and Lakhani 2013) . Se Hong and Page (2004) og Page (2008) for mere om værdien af mangfoldighed i problemløsning.

Hver af de åbne call sager i kapitlet kræver en smule yderligere forklaring på, hvorfor det hører til denne kategori. Først den ene måde, at jeg skelner mellem menneskelig beregning og åbne opkald projekter er, om produktionen er et gennemsnit af alle de løsninger (human beregning) eller den bedste løsning (åben indkaldelse). Den Netflix-prisen er noget tricky i denne henseende, fordi den bedste løsning viste sig at være en sofistikeret gennemsnittet af individuelle løsninger, en nærmede kaldes et ensemble løsning (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) . Set fra Netflix, men alt, hvad de skulle gøre, var at vælge den bedste løsning.

For det andet ved nogle definitioner af human beregning (f.eks Von Ahn (2005) ), Foldit bør betragtes som en menneskelig beregning projekt. Jeg vælger dog at kategorisere Foldit som en åben indkaldelse, fordi det kræver særlige færdigheder, og det tager den bedste løsning bidraget, snarere end at bruge en split-anvende-kombinere strategi.

Endelig kunne man argumentere for, at Peer-to-Patent er et eksempel på distribueret dataopsamling. Jeg vælger at medtage det som en åben indkaldelse, fordi det har en konkurrence-lignende struktur og bruges kun de bedste bidrag (hvorimod med distribueret dataopsamling, tanken om gode og dårlige bidrag er mindre klar).

For mere om Netflix Prize, se Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) , og Feuerverger, He, and Khatri (2012) . For mere om Foldit se, Cooper et al. (2010) , Andersen et al. (2012) , og Khatib et al. (2011) ; min beskrivelse af Foldit trækker på beskrivelserne i Nielsen (2012) , Bohannon (2009) , og Hand (2010) . For mere om Peer-to-Patent, se Noveck (2006) , Bestor and Hamp (2010) , Ledford (2007) , og Noveck (2009) .

Svarende til resultaterne af Glaeser et al. (2016) , Mayer-Schönberger and Cukier (2013) , kapitel 10 rapporter store gevinster i produktivitet boliger inspektører i New York, når inspektioner er styret af prognosemodeller. I New York City, blev disse prognosemodeller bygget af byens medarbejdere, men i andre tilfælde kunne man forestille sig, at de kunne være skabt eller forbedret med åbne indkaldelser (f.eks Glaeser et al. (2016) ). Men en stor bekymring med prædiktive modeller, der anvendes til at tildele ressourcer er, at modellerne har potentiale til at styrke de eksisterende fordomme. Mange forskere allerede ved "garbage in, garbage out", og med prædiktive modeller kan det være "Bias i, partiskhed ud." See Barocas and Selbst (2016) og O'Neil (2016) for mere om farerne ved prognosemodeller bygget med tendentiøse træningsdata.

Et problem, der kan forhindre regeringer fra at bruge åbne konkurrencer er, at det kræver nøgletal, som kan føre til krænkelse af privatlivets fred. For mere om beskyttelse af personlige oplysninger og data frigivelse i åbne indkaldelser se Narayanan, Huey, and Felten (2016) og diskussionen i kapitel 6.

  • Distribueret dataindsamling (afsnit 5.4)

Min beskrivelse af eBird trækker på beskrivelserne i Bhattacharjee (2005) og Robbins (2013) . For mere om, hvordan forskere anvender statistiske modeller til at analysere eBird data se Hurlbert and Liang (2012) og Fink et al. (2010) . For mere om historien om borgernes videnskab i ornothology, se Greenwood (2007) .

For mere om Malawi Tidsskrifter Project, se Watkins and Swidler (2009) og Kaler, Watkins, and Angotti (2015) . Og for mere om et beslægtet projekt i Sydafrika, se Angotti and Sennott (2015) . For flere eksempler på forskning ved hjælp af data fra Malawi Tidsskrifter Project se Kaler (2004) og Angotti et al. (2014) .

  • Design dit eget (afsnit 5.5)

Min tilgang til at tilbyde design rådgivning var induktive, baseret på eksempler på vellykket og mislykkedes masse samarbejdsprojekter, som jeg har hørt om. Der er også en strøm af forskning forsøger at anvende mere generelle socialpsykologiske teorier til at designe online fællesskaber, der er relevante for udformningen af masse samarbejdsprojekter, se for eksempel, Kraut et al. (2012) .

Vedrørende motiverende deltagere, er det faktisk ganske vanskelig at finde ud af præcis, hvorfor folk deltager i masse samarbejdsprojekter (Nov, Arazy, and Anderson 2011; Cooper et al. 2010, Raddick et al. (2013) ; Tuite et al. 2011; Preist, Massung, and Coyle 2014) . Hvis du planlægger at motivere deltagerne med betaling på en mikro-opgave arbejdsmarked (f.eks Amazon Mechanical Turk) Kittur et al. (2013) tilbyder nogle råd.

Vedrørende muliggør overraskelse, for flere eksempler på uventede opdagelser kommer ud af Zoouniverse projekter, se Marshall, Lintott, and Fletcher (2015) .

Med hensyn til at være etiske, nogle gode generelle introduktioner til de involverede spørgsmål er Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) , og Zittrain (2008) . For spørgsmål, der specifikt vedrører juridiske spørgsmål med crowd medarbejdere, se Felstiner (2011) . O'Connor (2013) behandler spørgsmål om etisk tilsyn med forskning, når roller forskere og deltagere sløre. For spørgsmål vedrørende deling af data og samtidig beskytte deltagerne handler i borger naturvidenskabelige projekter, se Bowser et al. (2014) . Både Purdam (2014) og Windt and Humphreys (2016) har nogle diskussion om de etiske spørgsmål i distribueret dataindsamling. Endelig erkender de fleste projekter bidrag men ikke give forfatterskab kredit til deltagerne. I Foldit er de Foldit spillere ofte opført som en forfatter (Cooper et al. 2010; Khatib et al. 2011) . I andre open call projekter, kan den vindende bidragyder skriver ofte et papir, der beskriver deres løsninger (fx Bell, Koren, and Volinsky (2010) og Dieleman, Willett, and Dambre (2015) ). I Galaxy Zoo familie af projekter, er særdeles aktive og vigtige bidragsydere til tider inviteret til at være medforfattere på papirer. For eksempel, Ivan Terentev og Tim Matorny, to Radio Galaxy Zoo deltagere fra Rusland, var medforfattere på en af de papirer, der opstod fra dette projekt (Banfield et al. 2016; Galaxy Zoo 2016) .