gníomhaíochtaí

 • leibhéal deacrachta: éasca éasca , mheán mheán , crua crua , an-deacair an-deacair
 • Éilíonn mata ( Éilíonn mata )
 • éilíonn códú ( Éilíonn códú )
 • bailiú sonraí ( bailiú sonraí )
 • mo rogha ( is fearr liom )
 1. [ mheán , is fearr liom ] Bhí fadhb algorithmic ina fhadhb le Google Flu Trends. Léigh an páipéar ag Lazer et al. (2014) , agus ríomhphost ghearr, soiléir a scríobh chuig innealtóir ag Google ag míniú an fhadhb agus ag smaoineamh ar conas é a shocrú.

 2. [ mheán ] Bollen, Mao, and Zeng (2011) gur féidir sonraí ó Twitter a úsáid chun an stocmhargadh a thuar. Mar thoradh ar an gcinneadh seo bhí cruthú ciste fál-Margaí Caipitil Derwent-infheistiú sa mhargadh stoc bunaithe ar shonraí a bailíodh ó Twitter (Jordan 2010) . Cén fhianaise ar mhaith leat a fheiceáil sula gcuirfí do chuid airgid sa chiste sin?

 3. [ éasca ] Cé go n-abhcóidíonn cuid de shláinte an phobail cúnamh éifeachtach ar r-toitíní le haghaidh scor tobac, rabhaidh daoine eile faoi na rioscaí a d'fhéadfadh a bheith ann, ar nós na leibhéil arda de Nicitín. Samhlaigh go gcinneann taighdeoir staidéar a dhéanamh ar thuairim an phobail i dtreo r-toitíní trí phoist Twitter a bhaineann le r-toitíní a bhailiú agus trí anailís a dhéanamh.

  1. Cad iad na trí chlaontacht is féidir a bhfuil an-imní ort sa staidéar seo?
  2. Clark et al. (2016) ach staidéar den sórt sin. Ar dtús, bhailigh siad 850,000 tweets a úsáideadh eochairfhocail a bhaineann le r-toitíní ó Eanáir 2012 go dtí mí na Nollag 2014. Ar chigireacht níos dlúithe, thuig siad go raibh go leor de na tweets seo uathoibrithe (ie níor tháirgthe daoine) agus go raibh go leor de na tweets uathoibrithe seo go bunúsach tráchtála. D'fhorbair siad algartam bhrath daonna chun tweets uathoibrithe a scaradh ó thweets orgánacha. Ag baint úsáide as an algartam bhrath daonna seo fuair siad go raibh 80% de na tweets uathoibrithe. An ndéanann an toradh seo athrú ar do fhreagra ar chuid (a)?
  3. Nuair a chuir siad an tuairim i dtweets orgánacha agus uathoibrithe, fuair siad amach go raibh na tweets uathoibrithe níos dearfaí ná tweets orgánacha (6.17 in aghaidh 5.84). An ndéanann an toradh seo athrú ar do fhreagra ar (b)?
 4. [ éasca ] I mí na Samhna 2009, d'athraigh Twitter an cheist sa bhosca tweet ó "Cad atá á dhéanamh agat?" Chuig "Cad atá ag tarlú?" (Https://blog.twitter.com/2009/whats-happening).

  1. Cén chaoi a gcreideann tú go mbeidh tionchar ag an athrú ar na huaireanna ar a bhfuil tweets agus / nó cad iad na tweetanna a dhéanann siad?
  2. Ainmnigh tionscadal taighde amháin ar mhaith leat an pras "Céard atá á dhéanamh agat" a mhíniú? Mínigh cén fáth.
  3. Ainmnigh tionscadal taighde amháin ar mhaith leat an "Céard atá ag tarlú?" A mhíniú. Mínigh cén fáth.
 5. [ éasca ] Is minic a úsáidtear "Retweets" chun tionchar agus scaipeadh na tionchair a thomhas ar Twitter. Ar dtús, ní mór d'úsáideoirí an tweet a chóipeáil agus a ghreamú a thaitin leo, clibeáil an t-údar bunaidh lena láimhseáil, agus clóscríobh "RT" de láimh sula dtéann an tweet go raibh sé ina retweet. Ansin, in 2009, chuir Twitter "retweet" an cnaipe. I mí an Mheithimh 2016, chuir Twitter ar chumas úsáideoirí a gcuid tweets féin a athfhilleadh (https://twitter.com/twitter/status/742749353689780224). An gceapann tú gur chóir go mbeadh tionchar ag na hathruithe seo ar an gcaoi a n-úsáideann tú "retweets" i do thaighde? Cén fáth nó cén fáth nach bhfuil?

 6. [ an-deacair , bailiú sonraí , Éilíonn códú , is fearr liom ] I bpáipéar a pléadh go forleathan, rinne Michel agus comhghleacaithe (2011) anailís ar ábhar níos mó ná cúig mhilliún leabhair digiteacha chun iarracht a dhéanamh treochtaí cultúrtha fadtéarmacha a aithint. Scaoileadh na sonraí a d'úsáid siad anois mar bhunachar sonraí Google NGrams, agus mar sin is féidir linn na sonraí a úsáid chun cuid dá gcuid oibre a mhacasamhlú agus a leathnú.

  I gceann de na torthaí go leor sa pháipéar, d'áitigh Michel agus comhghleacaithe go ndéanaimid dearmad níos tapúla agus níos tapúla. Le bliain áirithe, a rá "1883," ríomh siad an cion de 1 ghram a foilsíodh i ngach bliain idir 1875 agus 1975 a bhí "1883". Réasúnaigh siad gur tomhas é an cion seo ar an leas in imeachtaí a tharla sa bhliain sin. Ina bhfigiúr 3a, rinne siad plé ar na húsáideoirí ar feadh trí bliana: 1883, 1910, agus 1950. Tá patrún coitianta ag na trí bliana seo: úsáid beag roimh an mbliain sin, ansin spike, ansin lobhadh. Ina dhiaidh sin, chun an ráta lobhadh do gach bliain a chainníochtú, rianaigh Michel agus comhghleacaithe "leathré" gach bliain ar feadh na mblianta idir 1875 agus 1975. Ina bhfigiúr 3a (inset), léirigh siad go raibh leathré gach bliain, agus d'áitigh siad go gciallaíonn sé seo go ndéanaimid dearmad ar an am atá thart níos tapúla agus níos tapúla. Úsáid siad Leagan 1 den chorpas Béarla, ach ina dhiaidh sin scaoil Google an dara leagan den chorpas. Léigh gach cuid den cheist sula dtosaíonn tú ag códú.

  Tabharfaidh an ghníomhaíocht seo cód duit in-athshuiteáil a scríobh, ag léiriú torthaí, agus ag dul i ngleic le sonraí (amhail oibriú le comhaid neamhchomhracha agus láimhseáil sonraí ar iarraidh). Cabhróidh an ghníomhaíocht seo leat go mbeidh tú ag teacht ar bun le tacar sonraí saibhir agus suimiúil.

  1. Faigh na sonraí amh ó láithreán gréasáin Google Books NGram Viewer. Go háirithe, ba cheart duit leagan 2 den chorpas Béarla a úsáid, a scaoileadh ar 1 Iúil, 2012. Neamhchomhbhrúite, is é seo an comhad 1.4GB.

  2. Athraigh an chuid is mó de fhigiúr 3a de Michel et al. (2011) . Chun an figiúr seo a athchruthú, beidh dhá chomhad ag teastáil uait: an ceann a d'éirigh leat a íoslódáil i gcuid (a) agus an comhad "comhaireamh iomlán", ar féidir leat é a úsáid chun na cuntais amh a thiontú ina chomhréireanna. Tabhair faoi deara go bhfuil struchtúr iomlán na comhaid a d'fhéadfadh a bheith deacair é a léamh. An dtugann leagan 2 de na sonraí NGram torthaí dá leithéid ar aird dóibh siúd a chuirtear i láthair i Michel et al. (2011) , atá bunaithe ar shonraí leagan 1?

  3. Déan seiceáil anois ar do ghraf in aghaidh an ghraf a chruthaigh an NGram Viewer.

  4. Athraigh figiúr 3a (príomhfhigiúr), ach athraigh an \(y\) ais mar an uimhir luaithe amh (ní an ráta luaite).

  5. An dtugann an difríocht idir (b) agus (d) tú ar aon cheann de thorthaí Michel et al. (2011). Cén fáth nó cén fáth nach bhfuil?

  6. Anois, ag baint úsáide as an gcéatadán de na luachanna, léirítear inset figiúr 3a. Is é sin, le gach bliain idir 1875 agus 1975, leathré shaol na bliana sin a ríomh. Sainmhínítear an leathré saol gurb é an líon blianta a théann os comhair na céime de na luachanna a shroicheann leath a luach buaic. Tabhair faoi deara go bhfuil Michel et al. (2011) rud éigin níos casta chun meastachán a dhéanamh ar leath-shaol-féach alt III.6 den Thacaíocht ar Líne Faisnéise - ach éilíonn siad go dtarlaíonn torthaí dá leithéid leis an dá chur chuige. An dtugann leagan 2 de na sonraí NGram torthaí den chineál céanna dóibh siúd a chuirtear i láthair i Michel et al. (2011) , atá bunaithe ar shonraí leagan 1? (Leid: Ná bíodh iontas ort mura ndéanann sé.)

  7. An raibh aon bhlianta ann a bhí thar lear mar bhlianta a ndearnadh dearmad orthu go háirithe go tapa nó go mall? Déan gearán a dhéanamh go hachomair faoi chúiseanna a d'fhéadfadh a bheith ann don phhatrún sin agus mínigh conas a d'aithin tú na tréimhsí amach.

  8. Anois léiríonn an toradh seo le haghaidh leagan 2 de na sonraí NGrams i Sínis, Fraincis, Gearmáinis, Eabhrais, Iodáilis, Rúisis agus Spáinnis.

  9. Ag comparáid idir na teangacha go léir, an raibh blianta fada ann, mar bhlianta a ndearnadh dearmad orthu go háirithe go tapa nó go mall? Déan gearán a dhéanamh go hachomair faoi chúiseanna is féidir leis an bpatrún sin.

 7. [ an-deacair , bailiú sonraí , Éilíonn códú , is fearr liom ] Scrúdaigh Penney (2016) raibh baint ag an bpoiblíocht fhorleathan maidir le faireachas NSA / PRISM (ie, nochtadh Snowden) i mí an Mheithimh 2013 le laghdú géar agus tobann i dtrácht ar earraí Vicipéid ar ábhair a bhaineann le hábhair imní príobháideachta. Más amhlaidh, bheadh ​​an t-athrú seo ar iompar comhsheasmhach le héifeacht fuarú a eascraíonn as maoirseacht. Uaireanta glactar le dearadh sraitheanna ama isteach i gcur chuige Penney (2016) , agus baineann sé leis na cur chuige a thuairiscítear i roinn 2.4.3.

  Chun na heochairfhocail ábhair a roghnú, thug Penney tagairt don liosta a d'úsáid Roinn Slándála Baile na Stát Aontaithe chun rianaithe agus monatóireacht a dhéanamh ar na meáin shóisialta. Déanann an liosta DHS téacsanna áirithe áirithe a chatagóiriú i réimse saincheisteanna, is é sin, "Health Concern," "Infrastructure Security," agus "Sceimhlitheoireacht." I gcás an ghrúpa staidéir, d'úsáid Penney na 48 eochairfhocail a bhaineann le "Sceimhlitheoireacht" (féach tábla agallamh 8 ). Ansin, cuimsíonn sé tuairim airteagal comhiomlánaithe ó Wikipedia ar bhonn míosúil do na 48 earraí Vicipéid a fhreagraíonn thar thréimhse 32 mí, ó thús mhí Eanáir 2012 go dtí deireadh Lúnasa 2014. Chun a chuid argóint a neartú, chruthaigh sé roinnt grúpaí comparáide trí rianú tuairimí alt ar ábhair eile.

  Anois, tá tú ag dul a mhacasamhlú agus a leathnú Penney (2016) . Tá na sonraí amh go léir a theastaíonn uait don ghníomhaíocht seo ar fáil ó Vicipéid. Nó is féidir leat é a fháil ón wikipediatrend R-phacáiste (Meissner and R Core Team 2016) . Nuair a scríobhann tú do chuid freagraí, tabhair faoi deara an fhoinse sonraí a d'úsáid tú. (Tabhair faoi deara go bhfuil an ghníomhaíocht chéanna seo le feiceáil freisin i gcaibidil 6.) Tabharfaidh an ghníomhaíocht seo cleachtas duit i bhforbairt sonraí agus ag smaoineamh ar thurgnaimh nádúrtha i bhfoinsí sonraí móra. Gheobhaidh tú suas tú freisin le foinse sonraí a d'fhéadfadh a bheith suimiúil do thionscadail sa todhchaí.

  1. Léigh Penney (2016) agus déanann sé a figiúr 2 a mhacasamhlú, rud a léiríonn na tuairimí leathanach le haghaidh "Sceimhlitheoireacht" - a bhaineann le hábhar roimh na nochtadh Snowden. Léirigh na torthaí.
  2. Ar Aghaidh, déantar figiúr 4A a mhacasamhlú, a dhéanann comparáid idir an grúpa staidéir ("Sceimhlitheoireacht") le grúpa comparáideacha ag baint úsáide as eochairfhocail a chatagóiriú faoi "DHS & Gníomhaireachtaí Eile" ón liosta DHS (féach tábla 10 agus agóide fonóta 139). Léirigh na torthaí.
  3. I gcuid (b) rinne tú comparáid idir an grúpa staidéir agus grúpa comparáide amháin. Chomh maith leis sin, rinne Penney i gcomparáid le dhá ghrúpa comparáideacha eile: ailt a bhaineann le "Slándáil Bonneagair" (tábla 11 aguisín) agus leathanaigh Vicipéid tóir (tábla 12 aguisín). Tabhair suas le grúpa comparáide malartach, agus déan tástáil ar cibé an bhfuil na torthaí ó chuid (b) íogair do do ghrúpa comparáideach. Cén rogha a dhéanann an chuid is mó ciall? Cén fáth?
  4. Dúirt Penney go mbainfí úsáid as eochairfhocail a bhaineann le "Sceimhlitheoireacht" chun ailt Vicipéid a roghnú toisc go luadh rialtas na Stát Aontaithe ar sceimhlitheoireacht mar fhírinniú lárnach dá chleachtais faireachais ar líne. Mar sheiceáil ar na 48 eochairfhocail seo a bhaineann le "Sceimhlitheoireacht", rinne Penney (2016) suirbhé ar MTurk freisin, ag iarraidh ar fhreagróirí gach ceann de na heochairfhocail ht a mheas i dtéarmaí Trioblóid an Rialtais, Príobháideacht-íogair agus Seachain (tábla 7 agus 8 aguisín ). Déan an suirbhé ar MTurk a mhacasamhlú agus do chuid torthaí a chur i gcomparáid.
  5. Bunaithe ar na torthaí i gcuid (d) agus ar do léamh an ailt, an aontaíonn tú le heochairfhocail ábhair Phunney sa ghrúpa staidéir? Cén fáth nó cén fáth nach bhfuil? Mura bhfuil, cad é a mholfeadh tú ina ionad?
 8. [ éasca ] Efrati (2016) , bunaithe ar fhaisnéis rúnda, gur tháinig laghdú thart ar 5.5% bliain ar an mbliain "thar lear" ar Facebook nuair a bhí "rannpháirtíocht chraolta bunaidh" síos 21% bliain thar bhliain. Bhí an meath seo go háirithe géar le húsáideoirí Facebook faoi bhun 30 bliain d'aois. Chuir an tuarascáil an meath ar dhá fhachtóir. Is é ceann an fás ar líon na ndaoine "cairde" atá ar Facebook. Is é an ceann eile go bhfuil roinnt gníomhaíochta comhroinnte tar éis aistriú chuig teachtaireachtaí agus le hiomaitheoirí cosúil le Snapchat. Léirigh an tuarascáil freisin go raibh iarracht déanta ag Facebook roinnt comhdhéanta a threisiú, lena n-áirítear tweaks algartam News Feed a chuireann poist bunaidh níos suntasaí, chomh maith le meabhrúcháin tréimhsiúla na bpost bunaidh leis an ngné "Ar an Lá". Cad iad na himpleachtaí, más ann dóibh, a dhéanann na torthaí seo do thaighdeoirí ar mian leo Facebook a úsáid mar fhoinse sonraí?

 9. [ mheán ] Cad é an difríocht idir socheolaí agus staraí? De réir Goldthorpe (1991) , is é an príomhdhifríocht a rialú maidir le bailiú sonraí. Tá sé de dhualgas ar na saoirse tréigtheachtaí a úsáid, ach is féidir le socheolaithe a bhailiú sonraí a oiriúnú chun críocha sonracha. Léigh Goldthorpe (1991) . Cén chaoi a bhfuil an difríocht idir socheolaíocht agus stair a bhaineann le smaoineamh saincheaptha agus léitheoireachta?

 10. [ crua ] Tógann sé seo ar an quesiton roimhe seo. Tharraing Goldthorpe (1991) roinnt freagraí criticiúla, lena n-áirítear ceann amháin ó Nicky Hart (1994) a thug dúshlán do dhíspóid Goldthorpe chun sonraí a chur in oiriúint. Le soiléiriú a dhéanamh ar na teorainneacha a d'fhéadfadh a bheith ann de shonraí oiriúnaithe, thuairiscigh Hart an Tionscadal Oibrithe Ar Leibhéal, suirbhé mór chun an gaol idir an rang sóisialta agus an vótáil a rinne Goldthorpe agus comhghleacaithe i lár na 1960í a thomhas. De réir mar a d'fhéadfadh duine a bheith ag súil le scoláire a bhí i bhfabhar sonraí atá deartha ar shonraí a fuarthas, bhailigh an Tionscadal Oibrithe Ar Leibhéal sonraí a bhí saincheaptha chun aghaidh a thabhairt ar theoiric atá beartaithe le déanaí maidir le todhchaí an aicme shóisialta i ré le caighdeáin mhaireachtála a mhéadú. Ach rinne "Gold forgot" agus comhghleacaithe "dearmad" ar bhealach faisnéis a bhailiú faoi iompar vótála na mban. Seo mar a thug Nicky Hart (1994) achoimre ar an eachtra iomlán:

  "... tá sé deacair an chonclúid a sheachaint nach raibh fágtha ar mhná mar gheall ar loicic paradigmatic a bhí teoranta ag an tacar sonraí" oiriúnaithe "a eisiamh eispéireas baineann. Mar thoradh ar fhís theoiriciúil ar chonaic agus gníomh aicme mar chúraimí fireann ..., thóg Goldthorpe agus a chomhghleacaithe sraith cruthúnais eimpíreach a chothaigh agus a chothaigh a gcuid tuisceana teoiriciúil féin seachas iad a nochtadh go dtí tástáil bhailí leordhóthanach. "

  Lean Hart ar aghaidh:

  "Tugann torthaí empiriciúla an Tionscadail Oibrigh ar Leibhéal níos mó dúinn faoi luachanna firinscne na socheolaíochta lár na haoise ná mar a thugann siad eolas ar phróisis srathaithe, polaitíochta agus saol ábhartha."

  An féidir leat smaoineamh ar shamplaí eile i gcás go bhfuil claonadh an bhailitheora sonraí tógtha isteach sa bhailiúchán sonraí oiriúnaithe? Cén chaoi a gcuireann sé seo i gcomparáid le hábhar halgartaíochta? Cad iad na himpleachtaí a d'fhéadfadh a bheith ann nuair a ba chóir do thaighdeoirí leasuithe a úsáid agus nuair ba chóir dóibh custommades a úsáid?

 11. [ mheán ] Sa chaibidil seo, chuaigh mé i gcomparáid le sonraí a bhailigh taighdeoirí do thaighdeoirí le taifid riaracháin a chruthaigh cuideachtaí agus rialtais. Glaoch ar roinnt daoine na taifid riaracháin seo "aimsíodh sonraí," a bhfuil siad i gcodarsnacht leis na "sonraí atá ceaptha." Is fíor go bhfuair taighdeoirí taifid riaracháin, ach tá siad deartha go maith freisin. Mar shampla, oibríonn cuideachtaí nua-aimseartha an-deacair a gcuid sonraí a bhailiú agus a chaitheamh. Dá bhrí sin, déantar na taifid riaracháin seo a aimsiú agus a dhearadh, braitheann sé ach ar do pheirspictíocht (figiúr 2.12).

  Fíor 2.12: Is lacha agus coinín an pictiúr araon; braitheann an méid a fheiceann tú ar do pheirspictíocht. Tá foinsí sonraí móra le fáil agus deartha araon; arís, braitheann an méid a fheiceann tú ar do pheirspictíocht. Mar shampla, aimsítear na sonraí a bhaineann le taifid sonraí glaonna a bhailíonn cuideachta fón póca ó thaobh an taighdeora. Ach, déantar na sonraí seo a dhearbhú go díreach ó pheirspictíocht duine atá ag obair i rannóg billeála na cuideachta teileafóin. Foinse: Eolaíocht Coitianta Míosúil (1899) / Wikimedia Commons.

  Fíor 2.12: Is lacha agus coinín an pictiúr araon; braitheann an méid a fheiceann tú ar do pheirspictíocht. Tá foinsí sonraí móra le fáil agus deartha araon; arís, braitheann an méid a fheiceann tú ar do pheirspictíocht. Mar shampla, aimsítear na sonraí a bhaineann le taifid sonraí glaonna a bhailíonn cuideachta fón póca ó thaobh an taighdeora. Ach, déantar na sonraí seo a dhearbhú go díreach ó pheirspictíocht duine atá ag obair i rannóg billeála na cuideachta teileafóin. Foinse: Eolaíocht Coitianta Míosúil (1899) / Wikimedia Commons .

  Sampla de fhoinse sonraí a chur ar fáil i gcás ina bhfacaíonn sé go bhfuil sé araon mar a fuarthas agus a ceapadh cabhrach nuair a úsáidtear an fhoinse sonraí sin le haghaidh taighde.

 12. [ éasca ] In aiste meabhrach, roinn Christian Sandvig agus Eszter Hargittai (2015) taighde digiteach i dhá chatagóir leathana ag brath ar cibé an bhfuil an córas digiteach "ionstraim" nó "cuspóir staidéir." Sampla den chéad chineál - áit a bhfuil an córas ionstraim-is é an taighde a rinne Bengtsson agus comhghleacaithe (2011) maidir le húsáid sonraí fón póca chun imirce a rianú tar éis an crith talún i Háití i 2010. Sampla den dara cineál - áit a bhfuil an córas mar chuspóir staidéir - tá taighde ag Jensen (2007) maidir le conas a thug fóin phóca isteach i Kerala, an India tionchar ar mhargadh iasc. Fágann an t-idirdhealú seo cuidiú toisc go soiléiríonn sé gur féidir go mbeadh cuspóirí éagsúla difriúla ag staidéir ag baint úsáide as foinsí sonraí digiteacha, fiú má tá siad ag úsáid an chineál céanna foinse sonraí. Chun an t-idirdhealú seo a shoiléiriú, déan cur síos ar cheithre staidéar a fheiceann tú: dhá a úsáideann córas digiteach mar ionstraim agus dhá a úsáideann córas digiteach mar chuspóir staidéir. Is féidir leat samplaí ón gcaibidil seo a úsáid más mian leat.