2.3.2.6 ni idọti

Big data orisun le wa ni ti kojọpọ pẹlu ijekuje ati àwúrúju.

Diẹ ninu awọn oluwadi gbagbo wipe ńlá data orisun, paapa awon lati online awọn orisun, ni o wa pristine nitori won ti wa ni gba laifọwọyi. Ni o daju, awon eniyan ti o ti sise pẹlu ńlá data orisun mọ pe ti won ba wa nigbagbogbo ni idọti. Ti o ni, ti won nigbagbogbo ni data ti ko afihan gidi sise ti awọn anfani to oluwadi. Ọpọlọpọ awọn awujo sayensi ni o wa tẹlẹ faramọ pẹlu awọn ilana ti ninu o tobi-asekale awujo iwadi data, ṣugbọn ninu ńlá data orisun ti wa ni isoro siwaju sii fun ìdí méjì: 1) ti won ni won ko da nipa awọn oluwadi fun oluwadi ati 2) oluwadi gbogbo ni kere oye ti bi o a dá wọn.

Awon ewu ti idọti oni kakiri data ti wa ni alaworan nipasẹ Back ati awọn araa ' (2010) iwadi ti awọn ẹdun esi si awọn ku ti ​​September 11, 2001. Oluwadi ojo melo iwadi awọn esi to iṣẹlẹ iṣẹlẹ lilo iwẹhinwo data gbà lori osu tabi ani ọdun. Sugbon, Back ati awọn araa ri ohun nigbagbogbo-lori orisun ti oni wa-ni timestamped, laifọwọyi gba silẹ awọn ifiranṣẹ lati 85.000 American pagers-ki o si yi sise awọn oluwadi lati iwadi ẹdun esi lori kan Elo finer timescale. Pada ati awọn ẹlẹgbẹ da a iseju-nipasẹ-iseju imolara Ago ti Kẹsán 11th nipa ifaminsi awọn ẹdun akoonu ti awọn Pager awọn ifiranṣẹ nipa awọn ogorun ti ọrọ jẹmọ si (1) sadness (eg, nkigbe, ibinujẹ), (2) ṣàníyàn (eg, níbi, níbẹrù), ati (3) ibinu (eg, Ikŏriră, lominu ni). Nwọn si ri wipe sadness ati ṣàníyàn fluctuated jakejado awọn ọjọ lai kan to lagbara Àpẹẹrẹ, sugbon ti o wà nibẹ a idaṣẹ ilosoke ninu ibinu jakejado ọjọ. Iwadi yi dabi lati wa ni ìyanu kan apejuwe ti awọn agbara ti nigbagbogbo-lori data orisun: lilo boṣewa ọna ti o yoo jẹ soro lati ni iru kan to ga-o ga Ago ti awọn lẹsẹkẹsẹ esi si ohun airotẹlẹ iṣẹlẹ.

Kan kan odun nigbamii, sibẹsibẹ, Cynthia Pury (2011) wò ni data sii fara. O se awari wipe kan ti o tobi nọmba ti awọn gbimo binu awọn ifiranṣẹ won ti ipilẹṣẹ nipasẹ kan nikan Pager ati gbogbo wọn aami. Eyi ni ohun ti awon gbimo binu awọn ifiranṣẹ sọ pé:

"Atunbere NT ẹrọ [orukọ] ni minisita [orukọ] ni [ipo]: lominu ni: [ọjọ ati akoko]"

Awọn wọnyi ni awọn ifiranṣẹ ti won ike bínú nítorí pé wọn to wa ọrọ "lominu ni", eyi ti o le gbogbo fihan ibinu sugbon ko ni ninu apere yi. Yọ awọn ifiranṣẹ ti ipilẹṣẹ nipa yi nikan aládàáṣiṣẹ Pager patapata ti jade ni kedere ilosoke ninu ibinu lori papa ti awọn ọjọ (Figure 2.2). Ni gbolohun miran, awọn ifilelẹ ti awọn esi ni Back, Küfner, and Egloff (2010) je ohun artifact ti ọkan Pager. Bi yi apẹẹrẹ sapejuwe, jo o rọrun igbekale ti jo eka ati idoti data ni o pọju lati lọ si isẹ ti ko tọ.

Ro ero 2.2: ifoju po si ni ibinu lori papa ti September 11, 2001 da lori 85,000 American pagers (Back, Küfner, ati Egloff 2010; Pury 2011; Back, Küfner, ati Egloff 2011). Ni akọkọ, Back, Küfner, ati Egloff (2010) royin kan Àpẹẹrẹ ti npo ibinu jakejado ọjọ. Sibẹsibẹ, julọ ti awọn wọnyi kedere binu awọn ifiranṣẹ won ti ipilẹṣẹ nipasẹ kan nikan Pager ti o leralera rán jade awọn wọnyi ifiranṣẹ: Atunbere NT ẹrọ [orukọ] ni minisita [orukọ] ni [ipo]: lominu ni: [ọjọ ati akoko]. Pẹlu yi ifiranṣẹ kuro, awọn kedere ilosoke ninu ibinu disappears (Pury 2011; Back, Küfner, ati Egloff 2011). Yi nọmba rẹ jẹ a atunse ti Ọpọtọ 1B ni Pury (2011).

Ro ero 2.2: ifoju po si ni ibinu lori papa ti September 11, 2001 da lori 85,000 American pagers (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Ni akọkọ, Back, Küfner, and Egloff (2010) royin kan Àpẹẹrẹ ti npo ibinu jakejado ọjọ. Sibẹsibẹ, julọ ti awọn wọnyi kedere binu awọn ifiranṣẹ won ti ipilẹṣẹ nipasẹ kan nikan Pager ti o leralera rán jade awọn wọnyi ifiranṣẹ: "Atunbere NT ẹrọ [orukọ] ni minisita [orukọ] ni [ipo]: lominu ni: [ọjọ ati akoko]". Pẹlu yi ifiranṣẹ kuro, awọn kedere ilosoke ninu ibinu disappears (Pury 2011; Back, Küfner, and Egloff 2011) . Yi nọmba rẹ jẹ a atunse ti Ọpọtọ 1B ni Pury (2011) .

Nigba ti idọti data ti o ti wa ni da momo-bi lati ọkan alariwo Pager-le ṣee wa-ri nipa a idi ṣọra awadi, nibẹ ni o wa tun diẹ ninu awọn online awọn ọna šiše ti o fa intentional spammers. Awọn wọnyi ni spammers actively ina iro data, ati-igba qkan nipa èrè-iṣẹ gidigidi gidigidi lati tọju wọn spamming ti fipamọ. Fun apẹẹrẹ, oselu aṣayan iṣẹ-ṣiṣe on Twitter dabi lati ni ni o kere diẹ ninu awọn idi fafa spam, nipa eyiti diẹ ninu awọn oselu okunfa ti wa ni imomose ṣe si wo diẹ gbajumo ju ti won gangan ni o wa (Ratkiewicz et al. 2011) . Oluwadi ṣiṣẹ pẹlu data ti o le ni intentional spam koju si awọn ipenija ti dá wọn jepe ti nwọn ti ri ati kuro yẹ spam.

Níkẹyìn, ohun ti wa ni ka ni idọti data le dale ni abele ona lori rẹ iwadi ibeere. Fun apẹẹrẹ, ọpọlọpọ awọn àtúnṣe to Wikipedia ti wa ni da nipa aládàáṣiṣẹ oníṣe aláìlórúkọ (Geiger 2014) . Ti o ba wa ni nife ninu oko ti Wikipedia, ki o si awọn oníṣe aláìlórúkọ ni o wa pataki. Sugbon, ti o ba ti o ba wa ni nife ninu bi eda eniyan tiwon si Wikipedia, wọnyi àtúnṣe ṣe nipasẹ awọn wọnyi oníṣe aláìlórúkọ yẹ ki o wa rara.

Ti o dara ju ona lati yago fun ni ele nipa idọti data ni o wa lati ni oye bi rẹ data won da lati ṣe o rọrun exploratory onínọmbà, bi ṣiṣe o rọrun sit awọn igbero.