2.3.2 Bob amser-ymlaen

Bob amser-ar ddata mawr yn galluogi astudiaeth o ddigwyddiadau annisgwyl a mesur amser real.

Mae llawer o systemau data mawr bob amser-ar; maent yn gyson yn casglu data. Mae'r nodwedd hon bob amser-ar yn darparu ymchwilwyr data hydredol (hy, data dros gyfnod o amser). Being ymlaen bob amser wedi dwy oblygiadau pwysig ar gyfer ymchwil.

Yn gyntaf, mae casglu data bob amser yn galluogi ymchwilwyr i astudio digwyddiadau annisgwyl mewn ffyrdd na fyddai fel arall yn bosibl. Er enghraifft, byddai ymchwilwyr sydd â diddordeb mewn astudio protestiadau Occupy Gezi yn Nhwrci yn haf 2013 fel arfer yn canolbwyntio ar ymddygiad protestwyr yn ystod y digwyddiad. Roedd Ceren Budak a Duncan Watts (2015) yn gallu gwneud mwy trwy ddefnyddio natur bob dydd Twitter i astudio protestwyr a ddefnyddiodd Twitter cyn, yn ystod ac ar ôl y digwyddiad. Ac, roeddent yn gallu creu grŵp cymhariaeth o anfantais cyn, yn ystod, ac ar ôl y digwyddiad (ffigwr 2.2). Yn gyfan gwbl, roedd eu panel cyn-post yn cynnwys tweets o 30,000 o bobl dros ddwy flynedd. Drwy ychwanegu at y data a ddefnyddir yn gyffredin o'r protestiadau gyda'r wybodaeth arall hon, roedd Budak a Watts yn gallu dysgu llawer mwy: roedden nhw'n gallu amcangyfrif pa fath o bobl oedd yn fwy tebygol o gymryd rhan yn y protestiadau Gezi ac i amcangyfrif y newidiadau yn agweddau cyfranogwyr a rhai nad ydynt yn cymryd rhan, yn y tymor byr (yn cymharu cyn Gezi i yn ystod Gezi) ac yn y tymor hir (yn cymharu cyn Gezi gyda Gezi ar ôl).

Ffigwr 2.2: Dyluniad a ddefnyddiwyd gan Budak a Watts (2015) i astudio'r protestiadau Occupy Gezi yn Nhwrci yn haf 2013. Trwy ddefnyddio natur bob dydd Twitter, creodd yr ymchwilwyr yr hyn a elwir yn banel cyn-post a oedd yn cynnwys 30,000 o bobl dros ddwy flynedd. Mewn cyferbyniad ag astudiaeth nodweddiadol a oedd yn canolbwyntio ar gyfranogwyr yn ystod y protestiadau, mae'r panel cyn-post yn ychwanegu 1) o gyfranogwyr cyn ac ar ôl y digwyddiad a 2) data gan rai nad oeddent yn cymryd rhan cyn, yn ystod ac ar ôl y digwyddiad. Roedd y strwythur data cyfoethog hwn yn galluogi Budak a Watts i amcangyfrif pa fath o bobl oedd yn fwy tebygol o gymryd rhan yn y protestiadau Gezi ac i amcangyfrif y newidiadau yn agweddau cyfranogwyr a rhai nad ydynt yn cymryd rhan, yn y tymor byr (yn cymharu cyn Gezi gyda yn ystod Gezi ) ac yn y tymor hir (yn cymharu cyn Gezi gyda Gezi ôl-).

Ffigwr 2.2: Dyluniad a ddefnyddiwyd gan Budak and Watts (2015) i astudio'r protestiadau Occupy Gezi yn Nhwrci yn haf 2013. Trwy ddefnyddio natur bob dydd Twitter, creodd yr ymchwilwyr yr hyn a elwir yn banel cyn-post a oedd yn cynnwys 30,000 o bobl dros ddwy flynedd. Mewn cyferbyniad ag astudiaeth nodweddiadol a oedd yn canolbwyntio ar gyfranogwyr yn ystod y protestiadau, mae'r panel cyn-post yn ychwanegu 1) o gyfranogwyr cyn ac ar ôl y digwyddiad a 2) data gan rai nad oeddent yn cymryd rhan cyn, yn ystod ac ar ôl y digwyddiad. Roedd y strwythur data cyfoethog hwn yn galluogi Budak a Watts i amcangyfrif pa fath o bobl oedd yn fwy tebygol o gymryd rhan yn y protestiadau Gezi ac i amcangyfrif y newidiadau yn agweddau cyfranogwyr a rhai nad ydynt yn cymryd rhan, yn y tymor byr (yn cymharu cyn Gezi gyda yn ystod Gezi ) ac yn y tymor hir (yn cymharu cyn Gezi gyda Gezi ôl-).

Gallai amheuaeth nodi y gellid bod wedi gwneud rhai o'r amcangyfrifon hyn heb ffynonellau casglu data bob amser (ee amcangyfrifon hirdymor o newid yn yr agwedd), ac mae hynny'n gywir, er y byddai casglu data o'r fath ar gyfer 30,000 o bobl wedi bod yn eithaf drud. Hyd yn oed wedi rhoi cyllideb ddiwethaf, fodd bynnag, ni allaf feddwl am unrhyw ddull arall sy'n ei hanfod i ganiatáu i ymchwilwyr deithio yn ôl mewn amser ac arsylwi ymddygiad y cyfranogwyr yn y gorffennol yn uniongyrchol. Yr amgen agosaf fyddai casglu adroddiadau ôl-weithredol o ymddygiad, ond byddai'r adroddiadau hyn o grynwlaidd cyfyngedig ac yn fanwl gywir. mae tabl 2.1 yn darparu enghreifftiau eraill o astudiaethau sy'n defnyddio ffynhonnell ddata bob amser i astudio digwyddiad annisgwyl.

Tabl 2.1: Astudiaethau o ddigwyddiadau annisgwyl gan ddefnyddio ffynonellau data mawr bob amser.
Digwyddiad annisgwyl Ffynhonnell ddata bob amser Enwi
Dewch â symud Gezi yn Nhwrci Twitter Budak and Watts (2015)
Protestiau Umbrella yn Hong Kong Weibo Zhang (2016)
Shootings yr heddlu yn Ninas Efrog Newydd Adroddiadau stop-a-frisk Legewie (2016)
Person sy'n ymuno ag ISIS Twitter Magdy, Darwish, and Weber (2016)
Ymosodiad Medi 11, 2001 livejournal.com Cohn, Mehl, and Pennebaker (2004)
Ymosodiad Medi 11, 2001 negeseuon pager Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Yn ychwanegol at astudio digwyddiadau annisgwyl, mae systemau data mawr bob amser hefyd yn galluogi ymchwilwyr i gynhyrchu amcangyfrifon amser real, a all fod yn bwysig mewn lleoliadau lle mae gwneuthurwyr polisi-mewn llywodraeth neu ddiwydiant - eisiau ymateb yn seiliedig ar ymwybyddiaeth sefyllfaoedd. Er enghraifft, gellir defnyddio data cyfryngau cymdeithasol i arwain ymateb brys i drychinebau naturiol (Castillo 2016) a gellir defnyddio amrywiaeth o ffynonellau data mawr gwahanol yn cynhyrchu amcangyfrifon amser real o weithgaredd economaidd (Choi and Varian 2012) .

I gloi, mae systemau data bob amser yn galluogi ymchwilwyr i astudio digwyddiadau annisgwyl a darparu gwybodaeth amser real i wneuthurwyr polisi. Nid wyf, fodd bynnag, yn meddwl bod systemau data bob amser yn addas ar gyfer olrhain newidiadau dros gyfnodau hir iawn. Y rheswm am hynny yw bod llawer o systemau data mawr yn newid yn gyson - proses y byddaf yn galw drift yn ddiweddarach yn y bennod (adran 2.3.7).