2.4.2 Utabiri na nowcasting

Utabiri wa siku zijazo ni ngumu, lakini utabiri wa sasa ni rahisi zaidi.

Watafiti wa pili wa mkakati wanaweza kutumia na data ya kuchunguza ni kutabiri . Kufanya nadharia kuhusu siku zijazo ni vigumu sana, na labda kwa sababu hiyo, kutabiri bado sio sehemu kubwa ya utafiti wa kijamii (ingawa ni sehemu ndogo na muhimu ya demography, uchumi, magonjwa ya akili na sayansi ya kisiasa). Hapa, hata hivyo, ningependa kuzingatia aina maalum ya utabiri inayoitwa sasacasting -neno ambalo linatokana na kuunganisha "sasa" na "utabiri." Badala ya kutabiri baadaye, sasa kujaribu kujaribu kutumia maoni kutoka kwa utabiri wa kupima hali ya sasa wa ulimwengu; inajaribu "kutabiri sasa" (Choi and Varian 2012) . Sasacasting ina uwezo wa kuwa muhimu sana kwa serikali na makampuni ambayo yanahitaji hatua za wakati na sahihi za dunia.

Moja ya kuweka ambapo haja ya kipimo cha wakati na sahihi ni wazi sana ni ugonjwa wa magonjwa. Fikiria kesi ya homa ("mafua"). Kila mwaka, magonjwa ya mafua ya msimu husababisha mamilioni ya magonjwa na mamia ya maelfu ya vifo duniani kote. Zaidi ya hayo, kila mwaka, kuna uwezekano kwamba fomu ya riwaya inaweza kugeuka ambayo ingeua mamilioni. Kutokana na kuzuka kwa mafua ya 1918, kwa mfano, inakadiriwa kuwa imeua kati ya watu 50 na milioni 100 (Morens and Fauci 2007) . Kwa sababu ya haja ya kufuatilia na uwezekano wa kukabiliana na kuzuka kwa mafua, serikali duniani kote zimeunda mifumo ya ufuatiliaji wa mafua. Kwa mfano, vituo vya Udhibiti na Kuzuia Ugonjwa wa Marekani (CDC) mara kwa mara na kukusanya taarifa kutoka kwa madaktari waliochaguliwa kwa uangalifu nchini kote. Ijapokuwa mfumo huu unatoa data ya ubora, una kumbukumbu ya taarifa. Hiyo ni kwa sababu ya wakati inachukua kwa kuwasiliana na madaktari kutoka kwa madaktari kusafishwa, kusindika, na kuchapishwa, mfumo wa CDC hutoa makadirio ya jinsi mafuriko yalivyokuwa na wiki mbili zilizopita. Lakini, wakati wa kushughulikia janga la kujitokeza, viongozi wa afya ya umma hawataki kujua ni kiasi gani cha homa kulikuwa na wiki mbili zilizopita; wanataka kujua ni kiasi gani cha mafua kuna hivi sasa.

Wakati huo huo CDC inakusanya data ili kufuatilia mafua ya mafua, Google pia inakusanya data kuhusu kuenea kwa homa, ingawa kwa fomu tofauti kabisa. Watu kutoka duniani kote wanatumia maswali kwa mara kwa mara kwenye Google, na baadhi ya maswali haya-kama "tiba ya mafua" na "dalili za homa" -naweza kuonyesha kwamba mtu anayefanya swala ana homa. Lakini, kutumia maswali haya ya utafutaji ili kukadiria kuenea kwa mafua ni ngumu: si kila mtu anaye na homa hufanya utafutaji wa mafua, na sio kila utafutaji unaohusiana na homa hutoka kwa mtu anaye homa.

Jeremy Ginsberg na timu ya wafanyakazi wenzake (2009) , wengine kwenye Google na wengine kwenye CDC, walikuwa na wazo muhimu na wajanja kuchanganya vyanzo hivi viwili vya data. Kwa kiasi kikubwa, kwa njia ya aina ya takwimu za alchemy, watafiti pamoja data ya haraka na sahihi ya utafutaji na data ya polepole na sahihi ya CDC ili kuzalisha vipimo haraka na sahihi vya kuenea kwa homa. Njia nyingine ya kufikiria ni kwamba walitumia data ya utafutaji ili kuharakisha data ya CDC.

Zaidi hasa, kwa kutumia data kutoka 2003 hadi 2007, Ginsberg na wenzake walidhani uhusiano kati ya kuenea kwa mafua katika data ya CDC na kiasi cha utafutaji kwa maneno milioni 50 tofauti. Kutoka kwa mchakato huu, ambao ulikuwa unaotokana na data kabisa na haukuhitaji ujuzi maalum wa matibabu, watafiti walikuta seti ya maswali 45 tofauti ambayo yalionekana kuwa predictive ya data ya maambukizi ya ugonjwa wa mafua ya CDC. Kisha, kwa kutumia mahusiano waliyojifunza kutoka kwa data 2003-2007, Ginsberg na wenzake walijaribu mfano wao wakati wa msimu wa mafua ya 2007-2008. Waligundua kuwa taratibu zao zinaweza kufanya madhara ya haraka na sahihi (takwimu 2.6). Matokeo haya yalichapishwa katika Hali na imepokea chanjo ya vyombo vya habari vya adoring. Mradi huu-ulioitwa Mwelekeo wa Google Flu-ulikuwa mfano wa mara kwa mara juu ya nguvu ya data kubwa ya kubadilisha dunia.

Mchoro 2.6: Jeremy Ginsberg na wenzake (2009) waliunganisha data ya utafutaji wa Google na data ya CDC ili kuunda Mwelekeo wa Google Flu, ambayo inaweza sasa kiwango cha ugonjwa kama vile mafua (ILI). Matokeo katika takwimu hii ni kwa mkoa wa katikati ya Atlantiki ya Marekani katika msimu wa mafua ya 2007-2008. Ingawa awali ilikuwa ya kuahidi sana, utendaji wa Mwelekeo wa Fluji za Google uliharibiwa kwa muda (Cook na al. 2011, Olson et al. 2013; Lazer et al. 2014). Iliyotokana na Ginsberg et al. (2009), sura ya 3.

Mchoro 2.6: Jeremy Ginsberg na wenzake (2009) waliunganisha data ya utafutaji wa Google na data ya CDC ili kuunda Mwelekeo wa Google Flu, ambayo inaweza sasa kiwango cha ugonjwa kama vile mafua (ILI). Matokeo katika takwimu hii ni kwa mkoa wa katikati ya Atlantiki ya Marekani katika msimu wa mafua ya 2007-2008. Ingawa awali ilikuwa ya kuahidi sana, utendaji wa Mwelekeo wa Fluji za Google uliharibiwa kwa muda (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Iliyotokana na Ginsberg et al. (2009) , sura ya 3.

Hata hivyo, hadithi hii ya mafanikio inayoonekana hatimaye ikageuka kuwa aibu. Baada ya muda, watafiti waligundua mapungufu mawili muhimu ambayo hufanya Mwelekeo wa Google Flu usivutia zaidi kuliko ulivyoonekana hapo awali. Kwanza, utendaji wa Mwelekeo wa Fluji za Google haukuwa bora zaidi kuliko ule wa mfano rahisi ambayo inakadiriwa kiasi cha homa ya msingi kutokana na extrapolation ya kawaida kutoka kwa kiwango cha hivi karibuni cha kuenea kwa mafua (Goel et al. 2010) . Na, kwa muda mfupi, Mwelekeo wa Google Flu ulikuwa mbaya kuliko njia hii rahisi (Lazer et al. 2014) . Kwa maneno mengine, Mwelekeo wa Fluji za Google na data zake zote, kujifunza mashine, na kompyuta yenye nguvu hazikufaulu sana kwa njia rahisi na rahisi kuelewa heuristic. Hii inaonyesha kwamba wakati wa kutathmini utabiri wowote au sasa, ni muhimu kulinganisha dhidi ya msingi.

Sawa ya pili muhimu kuhusu Mwelekeo wa Fluji za Google ni kwamba uwezo wake wa kutabiri data ya gesi ya CDC ilipungukiwa na kushindwa kwa muda mfupi na kuoza kwa muda mrefu kwa sababu ya kutengana na algorithmic confounding . Kwa mfano, wakati wa mlipuko wa mafua ya nguruwe wa 2009 ya Google Flu Mwelekeo uliongezeka kwa kiasi kikubwa kiasi cha mafua, labda kwa sababu watu huwa na mabadiliko ya tabia yao ya utafutaji kwa kukabiliana na hofu iliyoenea ya janga la kimataifa (Cook et al. 2011; Olson et al. 2013) . Mbali na shida hizi za muda mfupi, utendaji huo umebadilika kwa muda mrefu. Kufahamu sababu za uharibifu huu wa muda mrefu ni vigumu kwa sababu taaluma za utafutaji wa Google ni wamiliki, lakini inaonekana kuwa mwaka 2011 Google ilianza kupendekeza maneno kuhusiana na utafutaji wakati watu wanatafuta dalili za homa kama "homa" na "kikohozi" (pia inaonekana kuwa kipengele hiki hakitumiki tena). Kuongeza kipengele hiki ni kitu cha kutosha kabisa kufanya kama unaendesha injini ya utafutaji, lakini mabadiliko haya ya algorithmic yalikuwa na athari za kuzalisha utafutaji zaidi kuhusiana na afya ambayo imesababisha Mwelekeo wa Google Flu kuenea kwa mafuriko (Lazer et al. 2014) .

Makaburi haya mawili yanafanya jitihada za baadaye za uandishi wa habari, lakini hazitaki. Kwa kweli, kwa kutumia mbinu za makini zaidi, Lazer et al. (2014) na Yang, Santillana, and Kou (2015) waliweza kuepuka matatizo haya mawili. Endelea mbele, natarajia kwamba masomo ya sasa ya kuchanganya yanayotokana na vyanzo vya data kubwa na data zilizochukuliwa na watafiti itawawezesha makampuni na serikali kuunda makadirio ya wakati na sahihi zaidi kwa kuongeza kasi ya kipimo chochote ambacho kinafanywa mara kwa mara kwa muda fulani. Miradi ya sasa kama vile Mwelekeo wa Google Flu pia inaonyesha nini kinaweza kutokea kama vyanzo vya data vingi vinashirikiana na data zaidi ya jadi ambayo iliundwa kwa madhumuni ya utafiti. Kufikiri nyuma ya ulinganisho wa sanaa wa sura ya 1, utangazaji wa sasa una uwezo wa kuchanganya tayari zawadi ya Duchamp na mitindo ya Michelangelo-style ili kutoa watoa uamuzi kwa vipimo vya wakati na sahihi zaidi vya sasa na utabiri wa siku zijazo.