3.6.1 Абагачаны запытаная

У ўзбагачаным запытаных, дадзеныя апытання стварае кантэкст вакол вялікай крыніцы дадзеных , які змяшчае некаторыя важныя вымярэнні , але ня маюць іншых.

Адзін з спосабаў , каб аб'яднаць дадзеныя абследаванняў і вялікія крыніцы дадзеных з'яўляюцца працэсам , які я буду называць узбагачаныя спытае. У ўзбагачаным запытаных, вялікі крыніца даных змяшчае некаторыя важныя вымярэння, але не хапае іншых вымярэнняў, так што даследчык збірае гэтыя адсутнічаюць вымярэння ў даследаванні, а затым звязвае дзве крыніцы дадзеных разам. Адным з прыкладаў узбагачаным пытацца з'яўляецца даследаванне Burke and Kraut (2014) пра тое павялічвае трываласць дружбы, які я апісаў у раздзеле 3.2) , якія ўзаемадзейнічаюць на Facebook. У гэтым выпадку, Берк і Kraut аб'яднала дадзеныя абследаванняў з часопіснымі дадзенымі Facebook.

Абстаноўка, у якой працавалі Берк і Kraut, аднак, азначае, што яны не павінны мець справу з двума вялікімі праблемамі, якія даследчыкі робяць абагачаных просяць звычайна сутыкаюцца. Ва- першых, на самай справе звязваючы разам наборы дадзеных індывідуальнага ўзроўню, працэс называецца запіс сувязь, можа быць цяжка , калі не ўнікальны ідэнтыфікатар ў абодвух крыніцах дадзеных , якія могуць быць выкарыстаны для таго, каб правільная запіс у адным наборы дадзеных супастаўляецца з правільнай запісам у іншы набор дадзеных. Другая асноўная праблема з узбагачаным пытацца, што якасць вялікай крыніцы дадзеных часта будзе цяжка для даследчыкаў, каб ацаніць, так як працэс, падчас якога дадзеныя ствараюцца могуць быць уласнасцю і могуць быць схільныя многія з праблем, апісаных у чале 2. іншымі словы, узбагачаныя запытаны будзе часта ўключаць схільныя памылкі увязванне даследаванняў да крыніц дадзеных чорнай скрыні невядомага якасці. Нягледзячы на гэтыя праблемы, аднак, узбагачаная запытаная могуць быць выкарыстаны для правядзення важных даследаванняў, як гэта было прадэманстравана Стывен Ansolabehere і Эйтан Херш (2012) у сваіх даследаваннях пра мадэлі галасавання ў Злучаных Штатах.

Яўка была прадметам шырокіх даследаванняў у галіне палітычнай навукі, і, у мінулым, разуменне даследчыкаў аб тым, хто галасуе і чаму наогул былі заснаваныя на аналізе дадзеных абследавання. Галасаванне ў Злучаных Штатах, аднак, незвычайнае паводзіны ў тым, што ўрад запісаў Ці прагаласаваў кожны грамадзянін (вядома, урад не рэгіструе, хто кожны грамадзянін галасуе за). На працягу многіх гадоў гэтыя ўрадавыя запісу голасу былі даступныя на папяровых формах, раскіданыя ў розных органах мясцовага самакіравання па ўсёй краіне. Гэта было вельмі цяжка, але не немагчыма, палітолагі , каб мець поўную карціну электарату і параўнаць тое , што людзі кажуць у апытаннях аб галасаванні з іх рэальным паводзінамі выбаршчыкаў (Ansolabehere and Hersh 2012) .

Але гэтыя галасуюць запісы ўжо былі пераведзены ў лічбавы фармат, а таксама шэраг прыватных кампаній сістэматычна збіраюць і аб'ядналі іх для стварэння комплексных файлаў майстар галасаванне, якія ўтрымліваюць паводзіны галасавання ўсіх амерыканцаў. Ansolabehere і Херш ў партнёрстве з адной з гэтых кампаній-Catalist LCC-для таго, каб выкарыстоўваць іх майстар-файл для галасавання, каб дапамагчы распрацаваць больш поўную карціну электарату. Акрамя таго, паколькі іх даследаванне абапіраецца на лічбавыя запісу сабраных і куратар кампаніі, якія інвеставалі значныя сродкі ў працэсе збору дадзеных і ўзгаднення, ён прапанаваў цэлы шэраг пераваг у параўнанні з папярэднімі высілкамі, якія былі зробленыя без дапамогі кампаній і з выкарыстаннем аналагавых запісаў.

Як і многія з буйных крыніц дадзеных у чале 2, майстар-файл Catalist не ўключае ў сябе вялікую часткі дэмаграфічнай, паводніцкай і паводніцкай інфармацыі, Ansolabehere і Херш неабходна. На самай справе, яны былі асабліва зацікаўлены ў параўнанні паведамілі паводзіны галасавання ў апытаннях з пацверджаным электаральных паводзінаў (г.зн. інфармацыі, якая змяшчаецца ў базе дадзеных Catalist). Так Ansolabehere і Херш сабралі дадзеныя, якія яны хацелі як вялікі сацыяльнае апытанне, КУИС, згаданы раней у гэтай чале. Затым яны далі свае дадзеныя Catalist і Catalist аддаў іх назад аб'яднаны файл дадзеных, які уключаў праверанае паводзіны галасавання (ад Catalist), самакантрашчаяся паведамілі паводзіны галасавання (ад КУИС) і дэмаграфію і стаўленне рэспандэнтаў (з КУИСОВ) (малюнак 3,13). Іншымі словы, Ansolabehere і Херш аб'ядналі дадзеныя запісаў для галасавання з дадзенымі абследаванняў ў мэтах правядзення даследаванняў, што было немагчыма з любым крыніцай дадзеных паасобку.

Малюнак 3.13: Схема даследаванні Ansolabehere і Херш (2012). Для стварэння майстар-файла дадзеных, Catalist аб'ядноўвае і гарманізуе інфармацыю з самых розных крыніц. Гэты працэс не аб'яднання, незалежна ад таго, наколькі старанна будуць распаўсюджвацца памылкі ў зыходных крыніцах дадзеных і ўвесці новыя памылкі. Другім крыніцай памылак з'яўляецца запіс сувязь паміж дадзенымі абследаванняў і майстар-файл дадзеных. Калі б кожны чалавек меў стабільны, унікальны ідэнтыфікатар ў абодвух крыніцах дадзеных, то сувязь будзе трывіяльным. Але, Catalist павінен быў зрабіць сувязь, выкарыстоўваючы недасканалыя ідэнтыфікатары, у гэтым выпадку імя, пол, год нараджэння і хатні адрас. На жаль, у многіх выпадках не можа быць няпоўнай або недакладнай інфармацыі; выбаршчык па імі Гамер Сімпсан можа здацца, як Гамер Джэй Сімпсан, Homie J Simpson, ці нават Гамер Sampsin. Нягледзячы на ​​магчымасць памылак у галоўным файле дадзеных і памылках Catalist у запісе сувязі, Ansolabehere і Херш змаглі ўмацаваць упэўненасць у сваіх ацэнках праз некалькі розных тыпаў праверак.

Малюнак 3.13: Схема даследаванні Ansolabehere and Hersh (2012) . Для стварэння майстар-файла дадзеных, Catalist аб'ядноўвае і гарманізуе інфармацыю з самых розных крыніц. Гэты працэс не аб'яднання, незалежна ад таго, наколькі старанна будуць распаўсюджвацца памылкі ў зыходных крыніцах дадзеных і ўвесці новыя памылкі. Другім крыніцай памылак з'яўляецца запіс сувязь паміж дадзенымі абследаванняў і майстар-файл дадзеных. Калі б кожны чалавек меў стабільны, унікальны ідэнтыфікатар ў абодвух крыніцах дадзеных, то сувязь будзе трывіяльным. Але, Catalist павінен быў зрабіць сувязь, выкарыстоўваючы недасканалыя ідэнтыфікатары, у гэтым выпадку імя, пол, год нараджэння і хатні адрас. На жаль, у многіх выпадках не можа быць няпоўнай або недакладнай інфармацыі; выбаршчык па імі Гамер Сімпсан можа здацца, як Гамер Джэй Сімпсан, Homie J Simpson, ці нават Гамер Sampsin. Нягледзячы на ​​магчымасць памылак у галоўным файле дадзеных і памылках Catalist у запісе сувязі, Ansolabehere і Херш змаглі ўмацаваць упэўненасць у сваіх ацэнках праз некалькі розных тыпаў праверак.

З іх камбінаваным файлам дадзеных, Ansolabehere і Херш прыйшлі да трох важным высноў. Па-першае, празмернай справаздачнасці галасавання лютуе: амаль палова nonvoters паведамілі галасаванне, і калі хтосьці данёс галасаванне, ёсць толькі 80% верагоднасць таго, што яны на самой справе прагаласавалі. Па-другое, празмерная справаздачнасць не з'яўляецца выпадковым: празмерная справаздачнасць з'яўляецца больш распаўсюджаным сярод высокім узроўнем даходаў, добра адукаваныя, партызаны, якія займаюцца грамадскімі справамі. Іншымі словамі, людзі, якія, хутчэй за ўсё, галасаваць таксама, хутчэй за ўсё, хлусяць пра галасаванні. Па-трэцяе, і самае важнае, з-за сістэматычнага характару празмернай справаздачнасці, фактычныя адрозненні паміж выбаршчыкамі і nonvoters менш, чым яны з'яўляюцца толькі з абследаванняў. Напрыклад, тыя, са ступенню бакалаўра каля 22 працэнтных пунктаў часцей паведамляюць пра галасаванне, але толькі 10 працэнтных пунктаў больш шанцаў на самай справе галасаваць. Аказваецца, магчыма, і не дзіўна, што існуючыя рэсурсы на аснове тэорыі галасавання значна лепш прадказаць, хто будзе паведамляць пра галасаванне (што дадзеныя, якія даследчыкі выкарыстоўвалі ў мінулым), чым яны на самой справе прадказаць, хто галасуе. Такім чынам, эмпірычны выснову аб Ansolabehere and Hersh (2012) заклік да новай тэорыі , каб зразумець і прадказаць галасаванне.

Але колькі мы павінны давяраць гэтым вынікам? Памятаеце, што гэтыя вынікі залежаць ад схільных памылак звязвання з дадзенымі чорнай скрыні з невядомымі колькасцю памылак. Больш канкрэтна, вынікі залежаць ад двух асноўных этапаў: (1) здольнасць Catalist аб'яднаць мноства разнастайных крыніц дадзеных, каб вырабіць дакладную майстар-файл дадзеныя і (2) здольнасць Catalist звязаць дадзеныя абследавання з яго асноўным файлам дадзеных. Кожны з гэтых крокаў цяжка, і памылкі ў любой стадыі можа прывесці даследчыкаў да няслушных высноў. Аднак, як апрацоўка дадзеных і звязванне маюць вырашальнае значэнне для далейшага існавання Catalist як кампаніі, так што ён можа інвеставаць сродкі ў вырашэнні гэтых праблем, часта ў такіх маштабах, якія больш не вучоны-даследчык не можа параўнацца. У сваёй працы Ansolabehere і Херш прайсці праз шэраг крокаў, каб праверыць вынікі гэтых двух крокаў, нават калі некаторыя з іх з'яўляюцца ўласнасцю, і гэтыя праверкі могуць быць карысныя для іншых даследчыкаў, якія жадаюць звязаць дадзеныя абследавання ў чорны скрыні вялікіх дадзеных крыніцы.

Якія агульныя ўрокі даследчыкі могуць атрымаць з гэтага даследавання? Па-першае, існуе велізарнае значэнне як узбагачаць вялікія крыніцы дадзеных з дадзенымі абследавання і ўзбагачаць дадзеныя апытання з вялікімі крыніцамі дадзеных (вы можаце ўбачыць што гэта даследаванне так ці інакш). Аб'яднаўшы гэтыя дзве крыніцы дадзеных, даследчыкі былі ў стане зрабіць тое, што было немагчыма альбо ў індывідуальным парадку. Другі агульны ўрок заключаецца ў тым, што, хоць агрэгаваныя, камерцыйныя крыніцы дадзеных, такія як дадзеныя ад Catalist, не варта разглядаць як «зямлю праўды» ў некаторых выпадках яны могуць быць карысныя. Скептыкі часам параўноўваць гэты агрэгаваных, камерцыйны крыніца дадзеных з абсалютнай ісцінай і паказаць на тое, што гэтыя крыніцы дадзеных не дацягваюць. Аднак, у гэтым выпадку, скептыкі робяць няправільнае параўнанне: усе дадзеныя, якія даследчыкі выкарыстоўваюць не дацягваюць абсалютную Ісціну. Замест гэтага, лепш параўнаць агрэгаваныя, камерцыйныя крыніцы дадзеных з іншымі крыніцамі наяўных дадзеных (напрыклад, самаацэнка паводзін галасавання), якія нязменна маюць памылкі, а таксама. І, нарэшце, трэці агульны ўрок вывучэння Ansolabehere і Херш з'яўляецца тое, што ў некаторых сітуацыях, даследчыкі могуць атрымаць выгаду з велізарных інвестыцый, што многія прыватныя кампаніі робяць у галіне збору і ўзгадненні складаных набораў сацыяльных дадзеных.