3.6.1 Amplified dotazom

Tento preklad bol vytvorený na počítači. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.6.1 Amplified dotazom

Prepojením prieskum na digitálne stopy môže byť ako pýtať každému Vaše otázky po celú dobu.

Kladenie všeobecne vojde do dvoch hlavných kategórií: výberových zisťovaní a sčítanie ľudu. S výberovými zisťovaniami, kde si prístup malý počet ľudí, môže byť flexibilný, včasné a relatívne lacná. Avšak, výberových zisťovaní, pretože sú založené na vzorke, sú často obmedzené vo svojom uznesení; s výberovým šetrením, je často ťažké, aby sa odhady o konkrétnych geografických oblastiach alebo pre špecifické demografické skupiny. Sčítanie obyvateľov, na druhej strane pokus o rozhovor každého v populácii. Majú veľké rozlíšenie, ale oni sú všeobecne drahšie, úzky v centre pozornosti (sú medzi nimi len malý počet otázok), a nie včas (k nim dochádza na stanoveného harmonogramu, ako je napríklad každých 10 rokov) (Kish 1979) . A teraz si predstavte, že výskumní pracovníci mohli kombinovať najlepšie vlastnosti výberových zisťovaní a sčítania; Predstavte si, že výskumní pracovníci mohli každý deň pýtať na každú otázku pre každého.

Je zrejmé, že toto neustále, všadeprítomné, trvalé pripojenie k prieskumu je druh fantázie spoločenských vied. Ale, zdá sa, že môžeme začať priblížiť to tým, že kombinuje prieskumovej z malého počtu osôb s digitálnymi stopami z mnohých ľudí. Hovorím tento typ kombinácie zosilnený pýtať. Ak sa to urobí dobre, mohlo by to pomôcť nám poskytuje odhad, ktoré sú väčšie lokálnej (u menších geografických oblastiach), viac zrnitý (pre konkrétne demografické skupiny), a včasnejšie.

Jedným z príkladov zosilneného pýtať pochádza z práce Joshua Blumenstock, ktorý chcel zhromaždiť údaje, ktoré by pomohli rozvoju manuál v chudobných krajinách. Presnejšie povedané, Blumenstock chcel vytvoriť systém pre meranie bohatstvo a blahobyt, ktorý v kombinácii úplnosť sčítania s flexibilitou a početnosti prieskumu (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . V skutočnosti som už opísal Blumenstock prácu stručne v kapitole 1.

Ak chcete začať, Blumenstock spolupracuje s najväčším poskytovateľom mobilných telefónov v Rwande. Spoločnosť mu poskytnuté anonymných záznamov o transakciách od asi 1,5 milióna zákazníkov pokrývajúcich správanie v rokoch 2005 a 2009. Protokoly obsahujú informácie o každom volaní a textové správy, ako je čas začiatku, trvanie a približnej zemepisnej polohe volajúceho a prijímačom. Než začneme hovoriť o štatistických otázok, je potrebné zdôrazniť, že tento prvý krok môže byť jedným z najťažších. Ako je opísané v kapitole 2, väčšina digitálne stopa nemá prístup k údajom výskumným pracovníkom. A mnoho firiem sú oprávnene váhajú zdieľať svoje dáta, pretože je súkromné; že je ich zákazníci zrejme nečakala, že ich záznamy budú zdieľané-in hromadne s výskumnými pracovníkmi. V tomto prípade výskumníci vzali opatrné kroky na anonymnosť dát a ich práca bola pod dohľadom treťou stranou (tj ich IRB). Ale napriek týmto snahám, tieto údaje sú pravdepodobne stále identifikovateľné a budú pravdepodobne obsahovať citlivé informácie (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Vrátim sa na tieto etické otázky v kapitole 6.

Pripomeňme si, že Blumenstock sa zaujímal o meraní bohatstvo a blahobyt. Ale tieto vlastnosti nie sú priamo v záznamoch hovorov. Inými slovami, tieto záznamy hovorov sú neúplné pre tento výskum, spoločný rys digitálnych stôp, ktoré boli podrobne prerokované v kapitole 2. Ale zdá sa pravdepodobné, že tieto záznamy volaní pravdepodobne mať nejaké informácie o bohatstva a blahobytu. Takže jeden spôsob kladenia Blumenstock otázka by mohla byť: je to možné predpovedať, ako sa niekto bude reagovať na prieskum na základe ich digitálne dáta trasovanie? Ak áno, potom tým, že žiada niekoľko ľudí, môžeme odhadnúť odpovede na všetky ostatné.

Ak chcete to posúdiť empiricky, Blumenstock a pomocní výskumníci z Kigali Institute of Science and Technology nazýva vzorka asi tisíc zákazníkov mobilných telefónov. Výskumníci vysvetlil ciele projektu na účastníkov, požiadal o ich súhlasu, aby prepojila odozvy prieskumu záznamy hovorov, a potom sa spýtal im niekoľko otázok, ktoré merajú ich bohatstva a blahobytu, ako je napríklad "Vlastníte rádio? "a" máte vlastný bicykel? "(pozri obrázok 3.11 pre čiastočný zoznam). Všetci účastníci prieskumu boli kompenzované finančne.

Ďalej Blumenstock použitý dvojstupňový postup spoločný Údaje o vede: rysom technicko-nasledovať učenie s učiteľom. Po prvé, v funkcia inžinierske kroku, pre každého, aby bol vypočúvaný, Blumenstock prevedené záznamy hovorov do súboru charakteristík asi každého človeka; dátové vedci mohli nazvať tieto charakteristiky "funkcie" a sociálne vedci im hovoria "premenné". Napríklad pre každú osobu, Blumenstock vypočíta celkový počet dní s aktivitou, počet rôznych ľudí osoba bola v kontakte s, suma peňazí vynaložených na telefonické hovory, a tak ďalej. Kriticky, dobrá vlastnosť inžinierstva vyžaduje znalosti o výskumnom prostredí. Napríklad, ak je dôležité rozlišovať medzi domáce a medzinárodné hovory (môžeme očakávať, že ľudia, ktorí volajú medzinárodne byť vydatnejšie), potom to musí byť vykonané do funkcie inžinierske kroku. Výskumník s malým pochopením Rwandy nemusí obsahovať túto funkciu, a potom prediktívne výkon modelu bude trpieť.

Ďalej na stráženom učenie kroku Blumenstock postavený štatistický model na predpovedanie odozvy prieskumu pre každú osobu na základe svojich funkcií. V tomto prípade sa používa Blumenstock logistickej regresie s 10-násobným krížovej validácie, ale mohol použiť celý rad ďalších štatistických alebo stroj prístup k štúdiu.

Tak, ako dobre to funguje? Bol Blumenstock schopný predpovedať odpovede na prieskum otázky typu "Vlastníte rádio?" A "Máte vlastný bicykel?" Pomocou funkcie odvodené zo záznamov hovorov? Druh. Presnosť predpovedí boli vysoké pre niektoré znaky (obrázok 3.11). Ale, že je vždy nutné porovnávať komplexné metódy predikcie proti prosté varianty. V tomto prípade je jednoduchá alternatíva je predpovedať, že každý dá najbežnejšie odpoveď. Napríklad 97,3% uviedlo vlastniť rádia, takže ak Blumenstock mu predpovedal, že každý by nahlásiť vlastné rádio by mali presnosť 97,3%, čo je prekvapivo podobný výkonu svojej zložitejšieho postupu (97,6% presnosť). Inými slovami, všetky údaje fantázie a modelovanie zvýšila presnosť predpovede z 97,3% na 97,6%. Avšak, pre ďalšie otázky, ako je napríklad "Máte vlastný bicykel?", Predpovede sa zlepšil z 54,4% na 67,6%. Všeobecnejšie povedané, obrázok 3.12 ukazuje na niektoré črty Blumenstock nezlepšila oveľa viac než len robiť jednoduché základné predikciu, ale že pre iné zvláštnosti došlo k určitému zlepšeniu.

Obrázok 3.11: Prediktívne presnosť štatistického modelu vyškolený sa záznamy hovorov. Výsledky z tabuľky 2 Blumenstock (2014) .

Obrázok 3.12: Porovnanie prediktívne presnosti pre štatistického modelu trénoval s volania záznamov na jednoduchom základnom predpovede. Body sú mierne jittered aby sa zabránilo prekrývaniu; pozri tabuľku 2 Blumenstock (2014) pre presné hodnoty.

V tomto momente by ste mohli myslieť, že tieto výsledky sú trochu sklamaním, ale len o rok neskôr, Blumenstock a dvaja kolegovia-Gabriel Cadamuro a Robert On-publikoval článok v časopise Science s podstatne lepšími výsledkami (Blumenstock, Cadamuro, and On 2015) , Boli tam dva hlavné technické dôvody pre zlepšenie: 1), ktorú použili viac sofistikované metódy (tj nový prístup k rysu inžinierstva a sofistikovanejšie učenia modelu počítača) a 2), skôr než sa pokúšať odvodiť odpovede na jednotlivé otázky prieskumu (napr "máte vlastné rádio?"), sa pokúsili odvodiť zložený index bohatstvo.

Blumenstock a kolegovia demonštroval výkonnosť ich prístup dvoma spôsobmi. Po prvé, zistili, že pre ľudí v ich vzorke mohli urobiť celkom dobrú prácu prognózovania ich bohatstvo zo záznamov hovorov (obr 3.14). Po druhé, a stále je ešte dôležitejšie, Blumenstock a jeho kolegovia ukázali, že ich postup by mohol produkovať vysoko kvalitné odhady geografického rozdelenia bohatstva v Rwande. Presnejšie povedané, oni používali ich Machine Learning model, ktorý bol vyškolený na ich vzorke asi 1000 ľudí, predpovedať bohatstvo všetkých 1,5 milióna ľudí v záznamoch hovorov. Ďalej, s geopriestorových dát vložených v dátach volania (pripomeňme, že dáta volanie zahŕňa umiestnenie najbližšieho buniek veža pre každý hovor), výskumníci boli schopní odhadnúť približnú bydliska každého človeka. Uvedenie týchto dvoch odhadov dohromady, výskum produkoval odhad geografické rozloženie účastnícke bohatstvo na extrémne jemné priestorové zrnitosti. Napríklad, môžu odhadnúť priemernú bohatstvo v každej z 2148 buniek Rwandy (najmenšie administratívne jednotky v krajine). Tieto predpovedanej hodnoty bohatstva bolo tak zrnitý, že bolo ťažké skontrolovať. Takže, výskumníci agregované výsledky svojej práce, aby vypracovala odhady priemerného bohatstva rwandskej 30 okresov. Tieto odhady okresnej úrovni boli úzko súvisí s odhadmi zo zlatého štandardu tradičným prieskumu, rwandská Demografické a Health Survey (obrázok 3.14). Hoci odhady z dvoch zdrojov boli podobné, odhady z Blumenstock a jeho kolegovia bolo asi 50 krát lacnejšie a 10-krát rýchlejšie (ak náklady na merané z hľadiska variabilných nákladov). Tento dramatický pokles nákladov znamená, že skôr než aby bola jazdí každých niekoľko rokov, čo je štandard pre demografické a zdravotné prieskumy-hybridný malého prieskumu v kombinácii s veľkými digitálnymi stopovými údajov by mohlo byť spustený každý mesiac.

Obrázok 3.13: Schéma Blumenstock, Cadamuro, a On (2015). Dátový prenos z telefónnej spoločnosti bol prevedený do matice s jeden riadok pre každú osobu a jeden stĺpec pre každú funkciu (tj variabilný). Ďalej výskumníci postavená dozorovaného modelu učenia predpovedať odpovedí v prieskume z osobe funkcií matrice. Potom, supervizovaná študijné model bol použitý pripísala odpovede prieskum pre každého. V podstate možno povedať, použili vedci odozvy asi tisíc ľudí pričítať bohatstvo asi milión ľudí. Tiež vedci odhadli približné miesto pobytu všetkých 1,5 milióna ľudí na základe umiestnenia svojich hovorov. Keď boli tieto dva odhady kombinovaným odhadovaný bohatstvo a odhadovaný miesta bydliska, výsledkom boli podobné odhady z demografické a zdravotné prieskumu, zlatý štandard tradičného prieskumu (pozri obrázok 3.14).

Obrázok 3.13: Schéma Blumenstock, Cadamuro, and On (2015) . Dátový prenos z telefónnej spoločnosti bol prevedený do matice s jeden riadok pre každú osobu a jeden stĺpec pre každú funkciu (tj variabilný). Ďalej výskumníci postavená dozorovaného modelu učenia predpovedať odpovedí v prieskume z osobe funkcií matrice. Potom, supervizovaná študijné model bol použitý pripísala odpovede prieskum pre každého. V podstate možno povedať, použili vedci odozvy asi tisíc ľudí pričítať bohatstvo asi milión ľudí. Tiež vedci odhadli približné miesto pobytu všetkých 1,5 milióna ľudí na základe umiestnenia svojich hovorov. Keď boli tieto dva odhady kombinovaným odhadovaný bohatstvo a odhadovaný miesta bydliska, výsledkom boli podobné odhady z demografické a zdravotné prieskumu, zlatý štandard tradičného prieskumu (pozri obrázok 3.14).

Obrázok 3.14: Výsledky Blumenstock, Cadamuro a na (2015). Na individuálnej úrovni, vedci boli schopní urobiť rozumnú prácu v predpovedanie niečí bohatstvo zo svojich záznamov hovorov. Odhady okresnej úrovne bohatstva, ktoré boli na základe odhadov na individuálnej úrovni bohatstva a miesta bydliska-boli výsledky podobné výsledkom z demografické a zdravotné Survey, so zlatým štandardom tradičného prieskumu.

Obrázok 3.14: Výsledky Blumenstock, Cadamuro, and On (2015) . Na individuálnej úrovni, vedci boli schopní urobiť rozumnú prácu v predpovedanie niečí bohatstvo zo svojich záznamov hovorov. Odhady okresnej úrovne bohatstva, ktoré boli na základe odhadov na individuálnej úrovni bohatstva a miesta bydliska-boli výsledky podobné výsledkom z demografické a zdravotné Survey, so zlatým štandardom tradičného prieskumu.

Záverom možno povedať, Blumenstock je zosilnený žiada prístup v kombinácii údajov zistených s digitálnymi dáta trasovanie, aby vypracovala odhady porovnateľné s odhadmi prieskumu zlatý štandard. Tento konkrétny príklad tiež objasňuje niektoré z kompromisov medzi zosilneného pýtať a tradičných metód prieskumu. Po prvé, amplifikovanej žiadajú odhady boli včasnejšie, podstatne lacnejšie a presnejšie. Ale na druhej strane, v tejto dobe, nie je silná teoretický základ pre tento druh zosilneného pýtať. To znamená, že tento príklad neukazuje, keď to bude fungovať, a keď to nebude. Ďalej je zosilnený požadovaná prístup ešte nemá dobré spôsoby, ako kvantifikovať neistotu panujúcu okolo jej odhadov. Avšak, zosilnený požadovaná má hlboké spojenie do troch veľkých oblastí v štatistike model na báze po stratifikácii (Little 1993) , dopočtových (Rubin 2004) , a odhadu malých priestorov (Rao and Molina 2015) -a, takže predpokladám, že pokrok bude byť rýchly.

Zosilnený požadovaná nasleduje základný recept, ktorý je možné prispôsobiť konkrétnej situácii. Existujú dve zložky a dva kroky. Tieto dve zložky sú: 1) digitálne stopa dátová sada, ktorá je široká, ale tenká (to znamená, že má veľa ľudí, ale nie informácie, ktoré potrebujete o jednotlivých osôb) a 2) prieskum, ktorý je úzky, ale silná (to znamená, že má len málo ľudí, ale má informácie, ktoré potrebujete o tých ľuďoch). Potom existujú dva kroky. Po prvé, pokiaľ ide o ľudí v oboch dátových zdrojov, stavať učenie modelu stroj, ktorý používa digitálne dáta trasovanie predvídať prieskumu odpovedí. Ďalej použite tento model strojového učenia pričítať prieskumov odpovede každého na digitálne dáta trasovanie. Takže ak tam je nejaká otázka, na ktorú sa chcete opýtať na veľa ľudí, pozrite sa na digitálne dáta trasovanie z tých ľudí, ktoré by mohli byť použité na predikciu ich odpoveď.

Porovnaním Blumenstock prvý a druhý pokus na problém ilustruje tiež dôležitý poznatok o prechode z druhého éry k prístupu tretích éry prieskumu výskumu: začiatok nie je koniec. To znamená, že mnohokrát, prvý prístup nebude najlepšie, ale ak výskumníci pokračujú v práci, môžu sa veci lepšie. Všeobecnejšie povedané, pri posudzovaní nové prístupy k sociálnym výskumu v digitálnom veku, je dôležité, aby sa dva rozdielne hodnotenie: 1), ako dobre to funguje teraz a 2) ako dobre si myslíte, že by to mohlo fungovať v budúcnosti ako dátový krajiny zmeny a ako výskumní pracovníci venovať viac pozornosti k problému. Aj keď výskumníci sú školení, aby sa prvý druh evalvácia (ako dobrý je tento konkrétny kus výskumu), druhý je často dôležitejšia.