2.3.2.1 Puutteellinen

Ei ole väliä kuinka "suuri" oman "big data" se luultavasti ei ole tietoa haluat.

Useimmat suuret tietolähteet ovat epätäydellisiä, siinä mielessä, että heillä ei ole tietoa, että haluatte oman tutkimuksen. Tämä on yleinen piirre tiedot, jotka on luotu muuhun tarkoitukseen kuin tutkimukseen. Sosiaalitieteilijöille on jo ollut kokemusta käsitellä epätäydellisyyden, kuten olemassa tutkimus, joka ei kysyä halusit. Valitettavasti ongelmat keskeneräisyyden yleensä enemmän äärimmäisiä suurissa tietoja. Kokemukseni, iso data taipumus puuttuvan kolmenlaisia ​​hyödyllisten tietojen sosiaalisen tutkimuksen: väestötiedot, käyttäytyminen muilla alustoilla, ja tiedot toteuttaakseen teoreettisia konstruktioita.

Kaikki nämä kolme muodoista epätäydellisyydestä havainnollistetaan tekemässä tutkimuksessa Gueorgi Kossinets ja Duncan Watts (2006) noin kehityksestä sosiaalisen verkoston yliopistossa. Kossinets ja Watts käynnistetään sähköpostin lokit yliopistosta, joka oli täsmällistä tietoa, joka lähetti sähköposteja, kenelle, milloin (tutkijat eivät ole pääsyä sisältöön sähköposteja). Nämä email kirjaa kuulostavat hämmästyttävä aineisto, mutta ne ovat, vaikka niiden koko ja rakeisuus-pohjimmiltaan puutteellinen. Esimerkiksi sähköpostin lokit eivät sisällä tietoja demografinen opiskelijoiden ominaisuudet, kuten sukupuoli ja ikä. Lisäksi sähköpostin lokit eivät sisällä tietoa viestinnän muuta mediaa, kuten puheluita, tekstiviestin tai face-to-face keskusteluja. Lopuksi sähköpostin tukit eivät suoraan sisällyttää tietoa suhteista, teoreettinen konstruktioita monissa olemassaolevia teorioita. Myöhemmin luvussa, kun puhun tutkimusstrategioitaan näet kuinka Kossinets ja Watts ratkaista nämä ongelmat.

Kolmenlaisia ​​keskeneräisyyden, ongelma puutteellisia tietoja toteuttaakseen teoreettinen konstruktioita on vaikein ratkaista, ja kokemukseni, se on usein vahingossa unohdetaan data tutkijat. Karkeasti, teoreettinen konstruktioita ovat abstrakteja ideoita, yhteiskuntatieteilijät tutkimus, mutta valitettavasti näitä konstruktioita ei aina voida yksiselitteisesti määritellä ja mitata. Esimerkiksi Kuvitellaan yrittää empiirisesti testata näennäisesti yksinkertainen väite, että ihmiset, jotka ovat älykkäämpiä ansaita enemmän rahaa. Jotta testi tämän vaatimuksen sinun täytyy mitata "älykkyys". Mutta, mikä on älykkyys? Esimerkiksi Gardner (2011) väitti, että itse asiassa kahdeksan eri älykkyyttä. Ja on olemassa menettelyjä, jotka voivat mitata minkä tahansa näistä muodoista älykkyys? Huolimatta valtavat määrät työtä psykologit, näihin kysymyksiin ei ole vielä yksiselitteistä vastausta. Siten jopa suhteellisen yksinkertainen vaatimus-ihmisiä, jotka ovat älykkäämpiä ansaita enemmän rahaa voi olla vaikea arvioida empiirisesti, koska se voi olla vaikea operationalisoida teoreettisia konstruktioita tietojen. Muita esimerkkejä teoreettisia konstruktioita, jotka ovat tärkeitä mutta vaikea operationalisoida sisältää "normit", "sosiaalinen pääoma" ja "demokratia". Sosiaalinen tiedemiehet kutsuvat ottelun teoreettisen konstruktioita ja data konstruktio voimassaolo (Cronbach and Meehl 1955) . Ja kuten tämä luettelo konstruktioita ehdottaa, rakentaa voimassaolo on ongelma, joka yhteiskuntatieteilijät ovat yrittäneet hyvin pitkän aikaa, vaikka ne olivat käsittelet joka kerättiin varten tutkimusta. Kun käsittelet kerätty muita tarkoituksia kuin tutkimus, ongelmat konstruktin voimassaoloajat ovat vielä haastavampaa (Lazer 2015) .

Kun luet tutkimuksen paperi, yksi nopea ja kätevä tapa arvioida huolta konstruktio voimassaolo on ottaa päävaatimus paperiin, joka on yleensä ilmaistaan ​​konstruktioita, ja uudelleen ilmaista se suhteen tietojen perusteella. Ajatellaan esimerkiksi kaksi hypoteettista tutkimuksia, jotka väittävät osoittaa, että enemmän älykkäät ihmiset ansaitsevat enemmän rahaa:

  • Tutkimus 1: ihmiset, jotka pisteet hyvin Raven Progressive Matriisit Test-hyvin tutkittu testi analyyttinen älykkyys (Carpenter, Just, and Shell 1990) -Yhteyspisteellä korkeampi raportoitu tulojen veroilmoituksessaan
  • Tutkimus 2: ihmiset Twitterissä, jotka käyttivät enää sanat ovat todennäköisemmin mainita luksusbrandien

Molemmissa tapauksissa tutkijat voisivat väittää, että he ovat osoittaneet, että enemmän älykkäät ihmiset ansaitsevat enemmän rahaa. Mutta ensimmäisessä tutkimuksessa teoreettinen konstruktit hyvin toteutettiin antamalla tiedot, ja toisessa ne eivät ole. Edelleen, koska tämä esimerkki osoittaa, enemmän tietoa ei automaattisesti ratkaise ongelmia konstruktilla pätevyyttä. Kannattaa epäillä tulokset Tutkimus 2 onko se mukana miljoona tweets, miljardi tweets tai biljoonaa tweets. Tutkijalle ei tunne ajatusta konstruktin voimassaoloajan, taulukko 2.2 annetaan esimerkkejä tutkimuksissa on operationalisoitu teoreettinen konstruktioita käyttäen digitaalista jäljittää tietoja.

Taulukko 2.2: Esimerkkejä digitaalisia jälkiä, joita käytetään toimenpiteiden enemmän abstrakteja teoreettisia käsitteitä. Sosiaalinen tutkijat kutsuvat ottelua konstruktio voimassaolo ja se on suuri haaste, jossa käytetään suuria tietolähteitä sosiaalisen tutkimuksen (Lazer 2015) .
Digitaalinen jälki teoreettinen käsite lainaus
sähköposti lokit yliopiston (meta-dataa) Sosiaaliset suhteet Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
sosiaalisen median viestit Weibo Kansalaistoiminta Zhang (2016)
sähköposti lokit yritys (meta-data ja täydellinen teksti) Kulttuurinen fit organisaatiossa Goldberg et al. (2015)

Vaikka ongelma epätäydellisen tietojen käyttökelpoisiksi teoreettinen konstruktioita on aika vaikea ratkaista, on kolme yhteisiä ratkaisuja epätäydellisen demografisia tietoja ja puutteellisia tietoja käyttäytymiseen muilla alustoilla. Ensimmäinen on todella kerätä tietoja tarvitaan; Kerron teille esimerkin, joka 3 luvussa kerron tutkimuksia. Valitettavasti tällainen tietojen kerääminen ei ole aina mahdollista. Toinen keskeinen ratkaisu on tehdä mitä tietoja tiedemiehet kutsuvat käyttäjäystävällinen määrite päättely ja mitä sosiaalinen tiedemiehet kutsuvat syyksi. Tässä lähestymistavassa tutkijat käyttävät tietoja, joita niillä on jotkut päätellä ominaisuuksia muita ihmisiä. Kolmas mahdollinen ratkaisu-järjestelmä, jota Kossinets ja Watts-oli yhdistää useita tietolähteitä. Tätä prosessia kutsutaan joskus sulautumiseen tai tiedostojen yhdistämistä. Oma suosikki metafora tälle prosessille ehdotettiin aivan ensimmäisessä kohdassa aivan ensimmäinen paperi koskaan kirjoitettu tiedostojen yhdistämistä (Dunn 1946) :

"Jokainen ihminen maailmassa luo Elämän kirja. Tämä kirja alkaa syntymästä ja päättyy kuolemaan. Sen sivut koostuvat kirjaa periaate elämän tapahtumia. Record sidos on annettu nimi prosessi kokoaminen teoksen sivuja tilavuuteen. "

Tämä kohta on kirjoitettu vuonna 1946, ja tuolloin, ihmiset ajattelivat, että Elämän Kirja voisi sisältää suuria elämän tapahtumia, kuten syntymä, avioliitto, avioero, ja kuolema. Kuitenkin nyt, että niin paljon tietoja ihmisistä on tallennettu, Elämän kirja voisi olla uskomattoman yksityiskohtainen muotokuva, jos nämä eri sivuille (ts digitaalista jälkiä), voidaan sitoa yhteen. Tämä Elämän kirja voisi olla suuri voimavara tutkijoille. Mutta Elämän kirja voitaisiin kutsua myös tietokantaa pilata (Ohm 2010) , jota voitaisiin käyttää kaikenlaisia ​​epäeettistä tarkoituksiin, kuten kuvataan alla, kun puhun arkaluonteisuuden keräämien tietojen iso tietolähteiden alla ja luku 6 (Ethics).