2.2 Big Data

Big gögn eru búnar og innheimt af stjórnvöldum til annarra nota en rannsóknir tilgangi. Using this gögn til rannsókna, því þarf repurposing.

An idealized sýn félagsvísindastofnunin ímyndar vísindamaður sem hefur hugmynd og þá safna gögnum til að prófa þessi hugmynd. Þessi stíll af rannsóknum leiðir til þétt milli rannsóknarspurningu og gögnum, en það er takmarkað vegna þess að einstaklingur fræðimaður hafa oft ekki þau úrræði sem þarf til að safna gögnum sem þeir þurfa, svo sem stórum, ríkum og á landsvísu-dæmigerðum gögnum. Þess vegna er mikið af félagslegum rannsóknum á fortíðinni hefur notaðir stórfelldum félagslegum könnunum, svo sem General Social Survey (GSS), American National Kosning Study (Anes), og pallborð Rannsókn tekna Dynamics (PSID). Þessar stórfelldum könnun eru almennt rekin af hópi vísindamanna og þær eru hannaðar til að búa til gögn sem hægt er að nota af mörgum vísindamönnum. Vegna markmiðum þessara stórfelldum könnunum, mikill aðgát er sett í að hanna gagnasöfnun og undirbúa þau gögn til notkunar af vísindamönnum. Þessi gögn eru af vísindamönnum og rannsakendum.

Flest félagsleg rannsóknir nota stafræna heimildum aldur, er hins vegar í grundvallaratriðum öðruvísi. Í stað þess að nota gögn sem safnað er af vísindamönnum og vísindamenn, notar það gagnaheimildir sem voru búin til og safnað af fyrirtækjum og ríkisstjórnum fyrir eigin tilgangi sínum, svo sem að græða, veita þjónustu, eða gefið lögmál. Þessi viðskipti og ríkisstjórn gagnaheimilda hafa komið til að vera kölluð stór gögn. Gera rannsóknir með stór gögn er öðruvísi en að gera rannsóknir með gögnum sem var upphaflega búið til fyrir rannsóknir. Bera saman, til dæmis félagsleg fjölmiðla vefsvæði, ss Twitter, með hefðbundnum almenningsálitið könnun ss General Social Survey (GSS). Helstu markmið twitter eru að veita þjónustu við notendur sína og til að græða. Í því ferli að ná þessum markmiðum, Twitter skapar gögn sem gæti verið gagnlegt að læra ákveðna þætti almennings. En, ólíkt General Social Survey (GSS), Twitter er ekki fyrst og fremst lögð áhersla á félagslega rannsóknir.

Hugtakið stór gögn er frustratingly óljós, og það hópar saman marga mismunandi hluti. Að því er varðar félagslega rannsókna, ég held að það sé gagnlegt að greina á milli tvenns konar stór gögnum:. Stjórnvalda stjórnsýsluupplýsingar og viðskipti stjórnsýsluupplýsingar Ríkisstjórn stjórn- færslur eru gögn sem eru búnar til með stjórnvöldum sem hluti af venja starfsemi þeirra. Þessar tegundir af skrám hafa verið notuð af vísindamönnum í fortíðinni, eins og demographers nám fæðing, hjónaband, og dauða færslur-en stjórnvöld eru sífellt að safna og gefa út nákvæmar skrár í analyzable formum. Til dæmis, New York City ríkisstjórnin sett stafrænar metra inni á hverju leigubíl í borginni. Þessir mælar taka allar tegundir af gögnum um hverja leigubíl meðtöldum ökumanni, byrjun tíma og staðsetningu, stöðva tíma og staðsetningu, og fargjald. Í rannsókn sem ég segi síðar í þessum kafla, Henry Farber (2015) repurposed þessi gögn til að takast grundvallar umræðu í hagfræði vinnu um tengslin milli tímakaup og fjölda vinnustunda.

Hin helsta tegund af stór gögn fyrir félagslega rannsókna er fyrirtæki stjórnsýslu færslur. Þetta eru gögn sem fyrirtæki búa og safna sem hluti af venja starfsemi þeirra. Þessi viðskipti stjórnsýslufyrirmæli skrár eru oft kölluð stafræn ummerki, og fela hluti eins leitarvél fyrirspurn logs, samfélagsmiðlum innlegg, og kalla færslur úr farsíma. Gagnrýnin, eru þessi fyrirtæki framkvæmdavald færslur ekki bara um online hegðun. Til dæmis, verslanir sem nota útskráningu skanni ert að búa í rauntíma ráðstafanir framleiðni starfsmanna. Í rannsókn sem ég segi þér um síðar í þessum kafla, Alexandre Mas og Enrico Moretti (2009) repurposed þetta búðina útskráningu gögn til að læra hvernig framleiðni launafólks er áhrif af framleiðni jafningjum sínum.

Eins bæði þessi dæmi sýna, að hugmyndin um repurposing er grundvallaratriði að læra af stór gögn. Í minn reynsla, félagsleg vísindamenn og gögn vísindamenn nálgast þetta repurposing mjög mismunandi. Félagsleg vísindamenn, sem eru vanir að vinna með gögn hannað til rannsókna, eru fljótir að benda á vandamál með repurposed gögnum en hunsa styrkleika. Á hinn bóginn, eru gögn vísindamenn fljótir að benda á ávinning af repurposed gögnum en hunsa sína veikleika. Auðvitað er besta nálgun væri blendingur. Það er, vísindamenn þurfa að skilja einkenni þessara nýju heimildum gögn, bæði góð og slæm, og þá reikna út hvernig á að læra af þeim. Og, það er áætlun sem eftir þessum kafla. Næst mun ég lýsa tíu sameiginleg einkenni fyrirtækja og stjórnvalda stjórnsýslu gögn. Eftir það mun ég lýsa þrjár rannsóknir aðferðir sem hægt er að nota með þessum gögnum, aðferðum sem eru vel til þess fallin að eiginleikum þessum gögnum.