més comentaris

Aquesta traducció va ser creat per un ordinador. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

més comentaris

Aquesta secció està dissenyada per a ser utilitzada com una referència, en lloc de ser llegit com un relat.

Introducció (Secció 5.1)

Col·laboració massiva combina les idees de la ciència ciutadana, el crowdsourcing, i la intel·ligència col·lectiva. Ciència ciutadana que implica en general vol dir "ciutadans" (és a dir, els no científics) en el procés científic (Crain, Cooper, and Dickinson 2014) . Crowdsourcing en general vol dir prendre un problema resolt en general dins d'una organització i en comptes subcontracten a una multitud (Howe 2009) . La intel·ligència col·lectiva generalment vol dir grups de persones que actuen col·lectivament en formes que semblen intel·ligents (Malone and Bernstein 2015) . Nielsen (2012) és una meravellosa introducció de longitud del llibre en el poder de la col·laboració massiva per a la investigació científica.

Hi ha molts tipus de col·laboració massiva que no encaixen perfectament en les tres categories que he proposat, i crec que tres mereixen una atenció especial, ja que podria ser útil en la investigació social en algun moment. Un exemple és els mercats de predicció, on els participants compren i contractes comercials que es poden canviar basen en els resultats que es produeixen en el món (Wolfers and Zitzewitz 2004; Arrow et al. 2008) . La predicció dels mercats sovint són utilitzats per les empreses i els governs per al pronòstic i la predicció dels mercats també han estat utilitzats pels investigadors socials per predir la possibilitat de reproduir els estudis publicats en la psicologia (Dreber et al. 2015) .

Un segon exemple que no encaixa bé en el meu esquema de categorització és el projecte Polymath, on els investigadors van col·laborar l'ús de blocs i wikis per provar nous teoremes matemàtics (Gowers and Nielsen 2009; Cranshaw and Kittur 2011; Nielsen 2012; Kloumann et al. 2016) . El projecte Polymath és en certa manera similar al Premi Netflix, però en els participants del projecte Polymath construït de forma més activa en les solucions parcials dels altres.

Un tercer exemple que no encaixa bé en el meu esquema de categorització és mobilitzacions dependents del temps, com l'Agència de Projectes d'Investigació Avançada de Defensa (DARPA) Desafiament de la xarxa (és a dir, el desafiament globus vermell). Per a més informació sobre aquests temps sensibles mobilitzacions veure Pickard et al. (2011) , Tang et al. (2011) , i Rutherford et al. (2013) .

Computació humana (Secció 5.2)

El terme "computació humana" surt de la feina realitzada per científics de la computació, i entendre el context d'iniciar aquesta investigació va a millorar la seva capacitat per recollir els problemes que podrien ser susceptibles a ella. Per certes tasques, els ordinadors són increïblement potent amb capacitats molt superiors als éssers humans, fins i tot els experts. Per exemple, en els escacs, els ordinadors poden superar fins i tot els millors mestres grans. Però -i això és menys apreciat pels científics socials-per a altres tasques, els ordinadors són en realitat molt pitjor que la gent. En altres paraules, en aquest moment vostè és millor que fins i tot l'equip més sofisticat en certes tasques de processament d'imatges, vídeo, àudio i text. Per tant, com es va posar de manifest per una meravellosa historieta xkcd-hi tasques que són fàcils per als ordinadors i difícil per a la gent, però també hi ha tasques que són difícils per a les computadores i fàcil per a les persones (Figura 5.13). Els científics informàtics que treballen en aquests durs-per-ordinadors-fàcil-de-tasques humanes, per tant, es van adonar que podien incloure els humans en el seu procés de càlcul. Així és com Luis von Ahn (2005) descriu la computació humana quan es va encunyar per primera vegada el terme en la seva dissertació: "un paradigma per a la utilització de la potència de processament humà per resoldre problemes que els ordinadors no poden resoldre."

Figura 5.13: Per a algunes tasques ordinadors són impressionants, superant la capacitat dels experts humans. No obstant això, per a altres tasques, els éssers humans ordinaris poden superar fins i tot els sistemes informàtics sofisticats. problemes a gran escala que involucren tasques que són difícils per als ordinadors i fàcil per als éssers humans estan ben adaptats per al càlcul humà. S'utilitza d'acord amb els termes que es descriuen aquí: http://xkcd.com/license.html

Segons aquesta definició Foldit -que he descrit en l'apartat de les trucades obertes-podria ser considerat un projecte de computació humana. No obstant això, trio categoritzar Foldit com una convocatòria oberta, ja que requereix coneixements especialitzats i pren la millor solució va contribuir en lloc d'utilitzar un s'aplicaran-combini-split estratègia.

Per a un excel·lent tractament longitud llibre de computació humana, en el sentit més general del terme, vegeu Law and Ahn (2011) . El capítol 3 de Law and Ahn (2011) té una interessant discussió de combinar els passos més complexos que els d'aquest capítol.

El terme "-aplicar-es combinen dividit" va ser utilitzat per Wickham (2011) per descriure una estratègia per al càlcul estadístic, sinó que capta a la perfecció el procés de molts projectes de computació humana. El-aplicar-combinar divisió estratègia és similar al marc MapReduce desenvolupat a Google (Dean and Ghemawat 2004; Dean and Ghemawat 2008) .

Dos projectes de càlcul humans intel·ligents que jo no tenia espai per discutir són l'ESP Game (Ahn and Dabbish 2004) i reCAPTCHA (Ahn et al. 2008) . Tots dos projectes van trobar formes creatives per motivar els participants per proporcionar etiquetes a les imatges. No obstant això, tots dos d'aquests projectes també van plantejar qüestions ètiques, ja que, a diferència de Galaxy Zoo, els participants en el Joc d'ESP i reCAPTCHA no sabien com s'estava utilitzant les seves dades (Lung 2012; Zittrain 2008) .

Inspirat per l'ESP Game, molts investigadors han intentat desenvolupar altres "jocs amb un propòsit" (Ahn and Dabbish 2008) (és a dir, "jocs de computació basada en humans" (Pe-Than, Goh, and Lee 2015) ) que pot ser utilitzat per resoldre una varietat d'altres problemes. El que aquests "jocs amb un propòsit" tenen en comú és que ells tracten de fer les tasques de computació humana agradable. Per tant, mentre que l'ESP Game comparteix la mateixa fracció d'aplicar-es combinen amb l'estructura de Galaxy Zoo, es diferencia en la manera dels participants motivats-diversió vs desig d'ajudar a la ciència.

El meu descripció de Galaxy Zoo recorre a Nielsen (2012) , Adams (2012) , Clery (2011) , i Hand (2010) , i es va simplificar la meva presentació dels objectius de recerca de Galaxy Zoo. Per a més informació sobre la història de la classificació de galàxies en l'astronomia i com Galaxy Zoo continua aquesta tradició, vegeu Masters (2012) i Marshall, Lintott, and Fletcher (2015) . Sobre la base de Galaxy Zoo, els investigadors va completar Galaxy Zoo 2, que recull més de 60 milions més de les classificacions morfològiques complexes a partir de voluntaris (Masters et al. 2011) . A més, com a nova activitat en problemes fora de la morfologia de la galàxia incloent l'exploració de la superfície de la lluna, la recerca de planetes, i transcriure documents antics. En l'actualitat, tots els seus projectes es recullen en www.zooniverse.org (Cox et al. 2015) . Un dels projectes d'instantànies Serengeti-proporciona evidència que tipus Zoo Galaxy projectes de classificació d'imatges també es pot fer a la investigació mediambiental (Swanson et al. 2016) .

Per als investigadors planegen utilitzar un mercat de treball de micro-tasca (per exemple, Amazon Mechanical Turk) per a un projecte de computació humana, Chandler, Paolacci, and Mueller (2013) i Wang, Ipeirotis, and Provost (2015) ofereixen bons consells sobre el disseny de tasques i altres temes relacionats.

Els investigadors interessats en la creació del que he anomenat els sistemes de computació humà de segona generació (per exemple, els sistemes que utilitzen etiquetes humans per entrenar un model d'aprenentatge automàtic) podrien estar interessats en Shamir et al. (2014) (per exemple, l'ús d'àudio) i Cheng and Bernstein (2015) . A més, aquests projectes es poden fer amb les trucades obertes, de manera que els investigadors competeixen per crear models d'aprenentatge automàtic amb el major rendiment predictiu. Per exemple, l'equip de Galaxy Zoo va córrer una convocatòria oberta i va trobar un nou enfocament que va superar a la desenvolupada en Banerji et al. (2010) ; veure Dieleman, Willett, and Dambre (2015) per a més detalls.

Convocatòries obertes (secció 5.3)

Convocatòries obertes no són nous. De fet, una de les convocatòries més coneguts es remunta a 1714 quan el parlament britànic va crear el Premi Longitud per a qualsevol persona que pogués desenvolupar una manera de determinar la longitud d'un vaixell en alta mar. El problema perplex a molts dels més grans científics de l'època, per exemple, Isaac Newton, i la solució guanyadora va ser finalment presentada per un rellotger del camp que es va acostar al problema de manera diferent dels científics que se centren en una solució que d'alguna manera implicaria l'astronomia (Sobel 1996) . Com il·lustra aquest exemple, una de les raons que es creu que les trucades obertes per treballar tan bé és que proporcionen l'accés a persones amb diferents perspectives i habilitats (Boudreau and Lakhani 2013) . Veure Hong and Page (2004) i la Page (2008) per a més informació sobre el valor de la diversitat en la resolució de problemes.

Cada un dels casos de trucades obertes al capítol requereix una mica d'explicació addicional de per què pertany a aquesta categoria. En primer lloc, d'una manera que jo distingeixo entre la computació humana i els projectes de convocatòria oberta és si la sortida és una mitjana de totes les solucions (computació humana) o la millor solució (convocatòria oberta). El Premi Netflix és una mica complicat en aquest sentit perquè la millor solució va resultar ser un mitjà sofisticat de solucions individuals, es va acostar a una flama una solució de conjunt (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) . Des de la perspectiva de Netflix, però, tot el que havien de fer era triar la millor solució.

En segon lloc, per algunes definicions de computació humana (per exemple, Von Ahn (2005) ), Foldit s'ha de considerar com un projecte de computació humana. No obstant això, trio categoritzar Foldit com una convocatòria oberta, ja que requereix coneixements especialitzats i pren la millor solució va contribuir, en lloc d'utilitzar un s'aplicaran-combini-split estratègia.

Finalment, es podria argumentar que Peer-to-patent és un exemple del recull de dades distribuïda. Trio incloure-ho com una convocatòria oberta, ja que té una estructura similar a concurs i només es fan servir les millors contribucions (mentre que amb la recol·lecció de dades distribuïda, la idea de les contribucions bons i dolents és menys clar).

Per a més informació sobre el Premi Netflix, vegeu Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) , i Feuerverger, He, and Khatri (2012) . Per a més informació sobre Foldit veure, Cooper et al. (2010) , Andersen et al. (2012) , i Khatib et al. (2011) ; la meva descripció de Foldit es basa en descripcions de Nielsen (2012) , Bohannon (2009) , i Hand (2010) . Per a més informació sobre Peer-to-Patents, veure Noveck (2006) , Bestor and Hamp (2010) , Ledford (2007) , i Noveck (2009) .

Similar als resultats de Glaeser et al. (2016) , Mayer-Schönberger and Cukier (2013) , Capítol 10 informes grans guanys en la productivitat dels inspectors d'habitatge a la ciutat de Nova York, quan les inspeccions es guien per models predictius. A la ciutat de Nova York, aquests models predictius van ser construïdes pels empleats de la ciutat, però en altres casos, un podria imaginar que es podrien crear o millorar amb trucades obertes (per exemple, Glaeser et al. (2016) ). No obstant això, una preocupació important amb els models de predicció que s'utilitzen per assignar recursos és que els models tenen el potencial per reforçar prejudicis existents. Molts investigadors ja saben "entra escombraries, surt escombraries", i amb els models predictius que poden ser "biaix en, el biaix cap a fora." Veure Barocas and Selbst (2016) i O'Neil (2016) per a més informació sobre els perills dels models predictius construïts amb dades d'entrenament esbiaixats.

Un dels problemes que podrien impedir que els governs mitjançant concursos oberts és que requereix la publicació de dades, el que podria donar lloc a violacions de privacitat. Per a més informació sobre la privacitat i la publicació de les dades de les trucades obertes veure Narayanan, Huey, and Felten (2016) i la discussió en el capítol 6.

La recopilació de dades distribuïda (Secció 5.4)

El meu descripció de eBird es basa en descripcions en Bhattacharjee (2005) i Robbins (2013) . Per a més informació sobre com els investigadors utilitzen models estadístics per analitzar les dades eBird veure Hurlbert and Liang (2012) i Fink et al. (2010) . Per a més informació sobre la història de la ciència ciutadana en ornothology, veure Greenwood (2007) .

Per a més informació sobre el Projecte de Revistes Malawi, vegeu Watkins and Swidler (2009) i Kaler, Watkins, and Angotti (2015) . I per més d'un projecte relacionat a Sud-àfrica, veure Angotti and Sennott (2015) . Per a més exemples d'investigació utilitzant les dades del Projecte Malawi Diaris veure Kaler (2004) i Angotti et al. (2014) .

El disseny de la seva pròpia (Secció 5.5)

El meu acostament a oferir consells disseny era inductiu, basat en els exemples d'èxit i no projectes de col·laboració en massa que he sentit parlar. També hi ha un corrent d'investigació tracta d'aplicar les teories psicològiques socials més generals per al disseny de les comunitats en línia que és rellevant per al disseny de projectes de col·laboració en massa, vegeu, per exemple, Kraut et al. (2012) .

Quant als participants que motiven, en realitat és bastant difícil d'esbrinar exactament per què les persones participen en projectes de col·laboració de masses (Nov, Arazy, and Anderson 2011; Cooper et al. 2010, Raddick et al. (2013) ; Tuite et al. 2011; Preist, Massung, and Coyle 2014) . Si va a motivar els participants amb el pagament d'un mercat de treball de micro-tasca (per exemple, Amazon Mechanical Turk) Kittur et al. (2013) ofereix alguns consells.

En el fet que permet sorpresa, per a més exemples de descobriments inesperats que surten de projectes zooniverse, vegeu Marshall, Lintott, and Fletcher (2015) .

Pel que fa a ser ètic, algunes bones introduccions generals a les qüestions en joc són Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) , i Zittrain (2008) . Per a qüestions relacionades específicament amb problemes legals amb els empleats multitud, veure Felstiner (2011) . O'Connor (2013) es dirigeix a preguntes sobre la supervisió ètica de la investigació, quan els papers dels investigadors i els participants desdibuixen. Per a qüestions relacionades amb l'intercanvi de dades alhora que protegeix participats en projectes de ciència ciutadana, veure Bowser et al. (2014) . Tant Purdam (2014) i Windt and Humphreys (2016) tenen una certa discussió sobre els problemes ètics en la recopilació de dades distribuïda. Finalment, la majoria dels projectes reconeixen les contribucions, però no donen crèdit d'autor als participants. En Foldit, els jugadors de Foldit s'enumeren sovint com un autor (Cooper et al. 2010; Khatib et al. 2011) . En altres projectes de convocatòria oberta, el contribuent guanyar amb freqüència pot escriure un article que descriu les seves solucions (per exemple, Bell, Koren, and Volinsky (2010) i Dieleman, Willett, and Dambre (2015) ). A la família Galaxy Zoo de projectes, col·laboradors molt actius i importants de vegades són convidats a ser coautors en els papers. Per exemple, Ivan Terentev i Tim Matorny, dos participants Galaxy Zoo Ràdio de Rússia, van ser co-autors en un dels documents que van sorgir d'aquest projecte (Banfield et al. 2016; Galaxy Zoo 2016) .