2.4.1 Counting Saachen

Simple Zielen kann interessant ginn, wann Dir eng gutt Fro mat gutt Daten kombinéieren.

Obwuel et an enger raffinéierter Klängesprooch ass, ass vill sozialer Fuerschung wierklech d'Zuel vun der Zuel. Am Alter vu groussen Donnéeë kann d'Fuerscher méi wéi jee maachen, awer dat heescht net datt se just ze zickzestellen beginn. Amplaz sollen d'Fuerscher fragen: Wat fir Saachen ze zielen? Dëst ka vläicht wéi eng ganz subjektiv Matière sinn, awer et sinn allgemeng Muster.

Oft Studenten motivéieren hir Zuelungsforschung ze soen: "Ech wäert eppes zielen, datt keen et je virdrun gezielt huet. Zum Beispill kann en Schüler soen datt vill Leit Migranten studéiert hunn a vill Leit Zwillinge studéieren, awer keen huet Migranten Zwillinge studéiert. A meng Erfahrung, datt dës Strategie, déi ech d' Motivatioun duerch Fëmmen nennt, net normalerweis zu gudder Recherche féiert. Motivatioun ouni Absenz ass eng Zort wéi et seet, datt et e Lach ass, an ech sinn ganz schwéier fir ze fëllen. Awer net all Léng muss gefeelt ginn.

Anstatt eng Motivatioun ze motivéieren ouni Absenz ze sinn, denken ech, datt eng besser Strategie ass fir Recherchen ze fannen déi wichteg oder interessant sinn (oder am Idealfall). Béid vun dëse Begrëffer ass e bësschen schwéier ze definéieren, awer eng Manéier fir eng wichteg Fuerschung ze denken ass datt et e puer mënschlech Auswierkunge oder Fousszorten an eng wichteg Entscheedung vun Politiker huet. Zum Beispill, d'Moosung vum Tarif vun der Chômage ass wichteg, well et eng Indikatioun vun der Wirtschaft ass, déi politesch Décisiounen féiert. Am allgemengen mengen ech, datt d'Fuerscher en zimlech gutt Sënn vun deem wat wichteg ass. Also, am Rescht vun dësem Sekt, ginn ech zwee Beispiller, wou ech mengen d'Zuelen interessant sinn. An all eenzelne Fäll hu sech d'Fuerscher net zougetraut; éischter, si hunn an ganz speziellen Astellungen zesummegestallt, déi wichtegen Erënnerungen a méi generell Iddien hunn iwwert wéi d'Sozialsystemer funktionnéieren. An anere Wierder, vill vun deem wat dës Besetzung interessant zielt interessant ass net d'Donnéeën selwer, et kënnt aus dësen méi generell Iddien.

Ee Beispill vu der einfacher Muecht vum Zielen ass vu Henry Farber's (2015) Studie vum Verhalen vu New York City Taxifahrer. Obschonn dës Grupp net interessant interessant kléngt, ass et e strategesche Fuerschungsstand fir 2 Konkurrenztheorien an der Arbechtswirtschaft. Fir d'Fuerschung vum Farber gëtt et zwou wichteg Funktiounen iwwert d'Aarbechtsumgebung vun Taxifahrern: (1) D'Stonnelaang schwätzt vun Dag zu Dag, an deelweis op Faktoren wéi de Wanter, a (2) d'Zuel vun Stonnen, déi se hunn Aarbecht kënne all Dag schwätzen iwwer seng Decisiounen. Dës Fonctiounen féieren eng interessant Fro iwwer d'Bezéiung tëschent Stonnenzahlen a Stonnen. Neoclassical Modelle vun Economie préziséiert datt Taxifahrer méi op Deeg schaffen, wou se héicht méi héige Loun kréien. Alternativ wäerten d'Modeller vu Behuele-Economie genee de Géigendeel virstellen. Wann d'Treiber e speziellen Erzielungsziel setzen - seet $ 100 pro Daag - a schaffen bis dës Zil erlieft gëtt, da sinn d'Treiber endlech manner Stonnen op Deeg, déi se méi verdéngen. Zum Beispill, wann Dir e Zilgräifvull war, da kënnt Dir am Laf vu ville Stonnen op e gudden Dag (25 Dollar pro Stonn) a fënnef Stonnen op engem schlechten Dag (20 Dollar pro Stonn) schaffen. Also, schaffen d'Chauffeuren méi Stonnen op Deeg mat enger héicht Ouerléch Loun (wéi virgesinn vun den neoklassesche Modelle) oder méi Stonnen op Deeg mat enger temporärer Lounerhéigung (sou wéi vun verhalensweisem wirtschaftlechen Modellen)?

Fir dës Fro ze beäntweren kritt Farber Daten op all Taxisrees vun den New York City Caben vun 2009 bis 2013, Daten déi ëffentlech ëffentlech zougänglech sinn. Dës Donnéeën déi duerch elektronesch Metrum gesammelt hunn datt d'Stad Taxis benotze mussen - en Informatioun iwwer all Trip verlafen: Startzäit, Startplaz, Enn Zäit, Endplaz, Tarif an Tipp (wann de Spëtz mat enger Kreditkaart bezuelt huet) . Mat dësen Taxismeter Donnéeën hunn d'Farber fonnt datt déi meescht vun den Treiber méi op Deeg ginn, wann d'Gehalt méi héich ass, mat der neoklassistescher Theorie konsequent.

Zousätzlech zu dëser Haapthindernod huet de Farber d'Gréisst vun den Daten fir e bessere Verständnis vun Heterogenitéit an Dynamik ze benotzen. Hien huet festgestallt, datt iwwer puer Joer méi nei Piloten léiere léiere fir méi Stonnen op héige Lounentäteg ze schaffen (z. B. léieren, sech als neoclassic Modell virzeweisen ze maachen). Awer nei Chaufferen, déi méi wéi Zilgrënner verhalten, sinn méi ufälleg fir Taxifahrern ze beweechen. Déi zwee vun dësen méi subtile Entdeckungen, déi de beobachtete Verhalen vun aktuellen Treiber erkläre, waren nëmme méiglech wéinst der Gréisst vum Dataset. Si waren net méi an e fréiere Studium ze entdecken, déi Pabeierausfléchbicher vun enger geréngen Zuel vun Taxifahrern iwwer eng kuerz Zäit hunn (Camerer et al. 1997) .

D'Farber-Studie war no enger bestëmmter Szenario fir eng Fuerschung mat enger grousser Datenquelle, well d'Daten, déi vun der Stad gesammelt goufen, zimlech no bei de Daten dat Sammler gesammelt hätten (Een Ënnerscheed ass datt Farber géifen Daten op der Gesamtheet wollten Léin tëfteg Plazen plus Tipps - mais d'Staddaten sinn nëmmen d'Tipps mat Kreditkaart bezuelt). Allerdéngs sinn d'Donnéeën eleng net genuch. De Schlëssel fir d'Farber-Forschung huet eng interessant Fro op d'Donnéeën, eng Fro, déi méi grouss Auswierkungen huet just dës spezifesch Plaz.

Eng zweet Beispill vu Zueler gëtt aus der Recherche vu Gary King, Jennifer Pan, an Molly Roberts (2013) iwwer Online Zensur vun der chinesescher Regierung. An dësem Fall hu mir awer d'Fuerscher hir eegenen groussen Daten sammelen an si hu mat der Tatsaach beschäftegt, datt hir Daten net vollstänneg waren.

De Kinnek an d'Kollegen waren motivéiert vun der Tatsaach, datt d'sozialen Medien Poste vun China ginn duerch en enorme Staatsapparat zenséiert ginn, deen als Zens vu Tausende vu Leit gëtt. D'Fuerscher an d'Bierger hunn awer wéineg Sënn fir dës Zensur entscheeden wat Inhalt ass geläscht ginn. D'Scholaresch Chinees hunn tatsächlech konfliktend Erwaardunge wat fir eng Art Poste méi wahrscheinlech geläscht ginn. E puer mengen datt d'Zensors op Poste konzentréieren, déi kritesch sinn vum Staat, anerer mengen datt se op Poste konzentréieren, déi kollektiv Verhalen opgefaang ginn, wéi Proteste. Aus wéi enge vun dëse Erwaardungen ass korrekt implizéiert fir wéi d'Fuerscher China verstoen an aner autoritär Regierungen, déi an Zensur engagéieren. Dofir wollten de Kinnek an de Kollegen Posts ze vergläichen, déi publizéiert goufen an duerno nees mat Posten déi publizéiert goufen an ni geläscht goufen.

dës posts Sammele Équipe der erstaunlech Ingenieur feat vu méi wéi 1.000 Chinese soziale Medien Websäite-eenzel mat verschiddene Säit Layout-Opklärung relevant posts ugelaf, an duerno dës posts Versammlungen ze gesinn, déi duerno nees geläscht goufen. Nieft der normal optimistesch Problemer mat grousser Skala Web-ugelaf verbonne no dësem Projet de notéiert Géigespiller datt et waren extrem séier ze sinn, well vill censored posts a manner wéi 24 Stonnen sinn geholl huet. An anere Wierder, wier e luesen CRAWLER vill posts eseu dass censored goufen. Weider no de ob all dës Donnéeën Kollektioun ze maachen iwwerdeems erkennen hannerzéien bewaacht de soziale Medien Websäite Zougang blockéieren oder soss an Äntwert op d'Etude hir Politik änneren.

No der Zäit datt dës massiv Ingenieurslaabnes fäerdeg gemaach gouf, hu Kriich an Kollegen ongeféier 11 Milliounen Awunner op 85 verschidde prépositionnelter Suen kritt, mat allgemengerem Niveau vun der Sensibilitéit. Zum Beispill, e Thema vu grousser Empfindlechkeet ass Ai Weiwei, dem Dissident Artist; Ee Thema vun der mëttlerer Sensibilitéit ass d'Wäertung an d'Abwertung vun der chinesescher Währung, an e Thema vun der gerénger Sensibilitéit ass d'Weltmeeschterschaft. Vun dësen 11 Millioune Leit goufen ca. 2 Milliounen zenséiert. Eischter Iwwerraschend huet de Kinnek a seng Kollegen fest fonnt, dass Posten op héich sensiblen Themen nëmmen e puer méi zenséiert sinn wéi d'Poste vu Mëttel- a Low-Sensitivitéitsthemen. An anere Wierder si chinesesch Zensoren ongeféier sou wahrscheinlech d'Zensur vun der Post, déi Ai Weiwei als e Post ernimmt, deen d'Weltmeeschterschaft bezeechent. Dës Entdeckungen ënnerstëtzen d'Idee net datt d'Regierung all Posts op sensibel Themen zenséiert.

Dës einfache Berechnung vum Zensurkurs vu Sujet kann awer irféierend sinn. Zum Beispill, d'Regierung kéint Zensorplazen déi Ënnerstëtzung vum Ai Weiwei ënnerstëtzen, awer d'Poste kréie si kritiséiert vun him. Fir ënnerscheeden tëschent Poste méi suergfälteg, brauche d'Fuerscher d' Gefiller vun all Post ze mellen. Leider, trotz vill Aarbecht, voll automatiséierter Methoden vu Sentimenterkennung mat virausgesetzten Dictionnairen sinn nach ëmmer net ganz gutt an vill Situatiounen (kuckt Iech un d'Probleemer, déi eng emotional Timeline vum 11. September 2001, deen am Abschnitt 2.3.9 beschriwwe gëtt) z'erreechen. De Kinnek a seng Kollegen hunn dofir eng Méiglechkeet, hir 11 Milliounen op sozialen Medien ze markéieren, ob si kritesch sinn vum Staat, (2) Ënnerstëtzung vum Staat oder (3) irrelevant oder fiktiv Reportagen iwwert d'Evenementer. Dëst kléngt eng massiv Aarbecht, awer se hunn et geléist mat engem kräftegen Trick, deen an der Datenwëssenschaft z'erhalen ass, awer relativ wéineg an der Sozialwëssenschaft: Iwwerwaachungsléiere ; 2.5.

Als éischt, an engem Schrëtt, deen typesch als Präprozessioun bezeechent gëtt , hunn d'Fuerscher d'sozialen Medien Poste in enger dokumentéierter Matrix ëmgewandelt , wou et eng Zeil an all Dokument war an eng Spalt, déi opgeholl huet, ob den Post eng spezifesch Wuert (zB Protest oder Verkéier) . Niewent enger Gruppe vu Fuerscher, déi d'Stëmmung vun enger Probe stoussen. Dann hunn se dës handgeschriwwenen Donnéeën benotzt fir e Maschinnmodell ze kreéieren deen de Gefühl vun enger Post stoungen, déi op hir Charakteristiken baséiert. Endlech hunn se dëse Modell benotzt fir de Gefühl vun all 11 Milliounen Posten ze schätzen.

Dëst sollt anstatt e manuell Liesen a markéierend 11 Mio. Posten ze halen - dat wär logistesch onméiglech. - De Kinnek a Kollegen manuell mat enger gerénger Zuel vu Posten a benotzt dann gebuergestallt Léierpersonal fir de Gefühl vun all de Posten ze schätzen. Nodeem dës Analyse fäerdeg war, konnt se d'Schluss zouloossen, datt d'Wahrscheinlechkeet vun enger Post geläscht war, net onbekannt, ob et kritesch war de Staat oder de Support vum Staat.

Figure 2.5: Amplifizéiert schematesch vun der Prozedur, déi vum Kinnek, Pan a Roberts (2013) benotzt gëtt, fir de Gefühl vun 11 Milliounen chinesesche Sozialpost Post ze schätzen. Eischtens, an engem Virbereedungsschrëtt, hunn d'Fuerscher d'sozialen Medien Poste mat enger dokumentéierter Matrix ëmgewandelt (kuck Grimmer a Stewart (2013) fir méi Informatiounen). Zweetens, si hunn d'Gefiller vun enger klenger Probeausdehnung kodéiert. Drëttens, hunn se e kontrolléierten Léiermass forméiert, fir de Sentiment vun de Poste klassifizéieren. Véier, hunn se de sougenannte Léiermethod benotzt fir de Gefühl vun all de Posten ze schätzen. Kuckt de Kinnek, de Pan a d'Roberts (2013), den Appendix B fir eng méi detailléiert Beschreiwung.

Figure 2.5: Amplifizéiert schematesch vun der Prozedur, déi vum King, Pan, and Roberts (2013) fir de Gefühl vun 11 Milliounen chinesesche Sozialpost Post ze schätzen. Eischtens, an engem Virbereedungsschrëtt , hunn d'Fuerscher d'sozialen Medien Poste mat enger dokumentéierter Matrix ëmgewandelt (kuck Grimmer and Stewart (2013) fir méi Informatiounen). Zweetens, si hunn d'Gefiller vun enger klenger Probeausdehnung kodéiert. Drëttens, hunn se e kontrolléierten Léiermass forméiert, fir de Sentiment vun de Poste klassifizéieren. Véier, hunn se de sougenannte Léiermethod benotzt fir de Gefühl vun all de Posten ze schätzen. Kuckt de King, Pan, and Roberts (2013) , den Appendix B fir eng méi detailléiert Beschreiwung.

Am Schluss hat de Kinnek a senge Kollegen entdeckt datt nëmmen dräi Zorte vu Säiten regelméisseg zenséiert waren: Pornographie, Kritëschung vun Zensoren an déi hunn e kollektive Aktionspotential (dh d'Méiglechkeet fir grouss Manifestatiounen ze maachen). Duerch Observatioun eng grousser Zuel vu Posten déi geläscht goufen a Posten, déi net geläscht waren, konnt de Kinnek an d'Kollegen d'Léierpersonal léieren, wéi d'Zensoren einfach nëmme kucken an zielen. Ausserdeem, fir eng Thema virzestellen, déi iwwerall an dësem Buch geschriwwe gëtt, gëtt déi iwwerwaachende Léierprozess, déi se d'Hand-Etikettéiere vu bestëmmte Resultater an duerno en Maschinn léieren, fir de Rescht ze markéieren, ass ganz verbreet an der sozialer Fuerschung am digitale Alter . Dir kënnt Biller déi ähnlech sinn wéi 2,5 aus Kapitelen 3 (Froen stellen) an 5 (Masseverbechtung geschafe); Dëst ass ee vun de puer Ideeën, déi an e puer Kapitelen erauskommen.

Dës Beispiller - d'Aarbechtsverhalen vun Taxifahrern an New York an de sozialen Zensurverhalen vun der chinesescher Regierung weisen, datt relativ einfach Zielen vu groussen Datenquellen kënnen an e puer Situatiounen zu interessant a wichteg Forschung féieren. An béide Fäll hu sech d'Fuerscher interessant Froen op déi grouss Datenquelle bruecht; D'Donnéeë vu selbst war net genuch.