2.3.4 paplotë

Pa marrë parasysh se sa të mëdha janë të dhënat tuaja të mëdha, ndoshta nuk ka informacionin që dëshironi.

Shumica e burimeve të mëdha të të dhënave janë të paplota , në kuptimin që ata nuk kanë informacionin që ju dëshironi për kërkimin tuaj. Kjo është një tipar i përbashkët i të dhënave që janë krijuar për qëllime të ndryshme nga kërkimet. Shumë shkencëtarë të shoqërisë tashmë kanë pasur përvojën e ballafaqimit me paplotësinë, siç është një sondazh ekzistues që nuk e bëri pyetjen që ishte e nevojshme. Për fat të keq, problemet e paplotësisë kanë tendencë të jenë më ekstreme në të dhëna të mëdha. Në përvojën time, të dhënat e mëdha tentojnë të mungojnë tre lloje të informatave të dobishme për hulumtimet shoqërore: informacionin demografik për pjesëmarrësit, sjelljen në platforma të tjera dhe të dhënat për të operacionalizuar konstruktet teorike.

Nga tre llojet e paplotësisë, problemi i të dhënave jo të plota për të operacionalizuar konstruktet teorike është më e vështira për t'u zgjidhur. Dhe në përvojën time, shpesh anashkalohet aksidentalisht. Afërsisht, konstruktet teorike janë ide abstrakte që shkencëtarët socialë studiojnë dhe operacionalizojnë një konstrukt teorik, duke nënkuptuar ndonjë mënyrë për të kapur atë konstrukt me të dhëna të vëzhgueshme. Për fat të keq, ky proces i thjeshtë duke fryrë shpesh rezulton të jetë mjaft i vështirë. Për shembull, le të imagjinojmë duke u përpjekur të provojmë në mënyrë empirike pretendimin e thjeshtë se njerëzit që janë më inteligjent fitojnë më shumë para. Për të provuar këtë pretendim, do të duhet të matni "inteligjencën". Por çfarë është inteligjenca? Gardner (2011) argumentoi se ekzistojnë aktualisht tetë forma të ndryshme të inteligjencës. Dhe a ekzistojnë procedura që mund të masë me saktësi ndonjë nga këto forma të inteligjencës? Pavarësisht sasi të mëdha të punës nga psikologët, këto pyetje ende nuk kanë përgjigje të qarta.

Kështu, edhe një pretendim relativisht i thjeshtë - njerëzit që janë më inteligjentë fitojnë më shumë para - mund të jenë të vështirë të vlerësohen në mënyrë empirike, sepse mund të jetë e vështirë të operacionalizohen konstruktet teorike në të dhëna. Shembuj të tjerë të konstrukteve teorike që janë të rëndësishme por të vështirë për t'u operacionalizuar përfshijnë "normat", "kapitalin social" dhe "demokracinë". Shkencëtarët socialë e quajnë ndeshje midis konstrukteve teorike dhe vlefshmërisë së konstruktimit të të dhënave (Cronbach and Meehl 1955) . Siç sugjeron kjo listë e shkurtër e konstrukteve, ndërtimi i vlefshmërisë është një problem që shkencëtarët socialë kanë luftuar me një kohë shumë të gjatë. Por në përvojën time, problemet e vlefshmërisë së ndërtimit janë edhe më të mëdha kur punojnë me të dhëna që nuk janë krijuar për qëllime të hulumtimit (Lazer 2015) .

Kur po vlerësoni një rezultat të hulumtimit, një mënyrë e shpejtë dhe e dobishme për të vlerësuar vlefshmërinë e ndërtimit është të marrni rezultatin, i cili zakonisht shprehet në terma të konstrukteve dhe ri-shprehu atë në aspektin e të dhënave të përdorura. Për shembull, merrni parasysh dy studime hipotetike që pretendojnë të tregojnë se njerëzit që janë më inteligjent fitojnë më shumë para. Në studimin e parë, studiuesi zbuloi se njerëzit që kanë rezultate të mira në Testin e Matrices Progresive Raven - një provë e studiuar mirë e inteligjencës analitike (Carpenter, Just, and Shell 1990) kanë të ardhura më të larta të raportuara në kthimet e tyre tatimore. Në studimin e dytë, studiuesi zbuloi se njerëzit në Twitter që përdorën fjalë më të gjata kanë më shumë gjasa të përmendin markat luksoze. Në të dy rastet, këta studiues mund të pohojnë se ata kanë treguar se njerëzit që janë më inteligjent fitojnë më shumë para. Sidoqoftë, në studimin e parë konstruktet teorike janë operacionalizuar mirë nga të dhënat, ndërsa në të dytin ato nuk janë. Më tej, siç ilustron ky shembull, më shumë të dhëna nuk i zgjidhin automatikisht problemet me ndërtimin e vlefshmërisë. Ju duhet të dyshoni në rezultatet e studimit të dytë nëse përfshiu një milion tweets, një miliard tweets, ose një twilions trilion. Për studiuesit që nuk janë të njohur me idenë e konstruktimit të vlefshmërisë, tabela 2.2 jep disa shembuj të studimeve që kanë operacionalizuar konstruktet teorike duke përdorur të dhëna digjitale gjurmë.

Tabela 2.2: Shembuj të gjurmëve digjitale të përdorura për të operacionalizuar konstruktet teorike
Burim i të dhënave Ndërtimi teorik Referencat
Regjistrat e postës elektronike nga një universitet (vetëm meta-të dhëna) Marrëdhëniet shoqërore Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Postimet e mediave sociale në Weibo Angazhimi qytetar Zhang (2016)
Regjistrat e postës elektronike nga një firmë (meta-të dhënat dhe teksti i plotë) Përshtatje kulturore në një organizatë Srivastava et al. (2017)

Megjithëse problemi i të dhënave të paplota për kapjen e konstrukteve teorike është mjaft e vështirë për t'u zgjidhur, ekzistojnë zgjidhje të përbashkëta për llojet e tjera të zakonshme të paplotësisë: informacion i paplotë demografik dhe informacione jo të plota mbi sjelljen në platforma të tjera. Zgjidhja e parë është mbledhja e të dhënave që ju nevojiten; Do t'ju tregoj në lidhje me atë në kapitullin 3 kur t'ju tregoj për sondazhet. Zgjidhja e dytë kryesore është të bëjmë atë që shkencëtarët e të dhënave e quajnë përfundim të atributit të përdoruesit dhe shkencëtarët socialë e quajnë imputimin . Në këtë qasje, hulumtuesit përdorin informacionin që ata kanë për disa njerëz për të konkluduar atributet e njerëzve të tjerë. Një zgjidhje e tretë e mundshme është kombinimi i burimeve të shumta të të dhënave. Ky proces nganjëherë quhet lidhje rekord . Metafora ime e preferuar për këtë proces është shkruar nga Dunn (1946) në paragrafin e parë të letrës së parë të shkruar ndonjëherë në lidhje me lidhjen:

"Çdo person në botë krijon një libër të jetës. Ky libër fillon me lindjen dhe mbaron me vdekjen. Faqet e saj përbëhen nga të dhënat e ngjarjeve kryesore në jetë. Lidhje rekord është emri i dhënë në procesin e grumbullimit të faqeve të këtij libri në një vëllim. "

Kur Dunn shkroi këtë pasazh ai po imagjinonte që Libri i Jetës mund të përfshinte ngjarje të mëdha të jetës si lindja, martesa, divorci dhe vdekja. Megjithatë, tani që informata aq shumë rreth njerëzve regjistrohen, Libri i Jetës mund të jetë një portret tepër i detajuar, nëse këto faqe të ndryshme (p.sh., gjurmët tona digjitale) mund të lidhen së bashku. Ky libër i jetës mund të jetë një burim i madh për kërkuesit. Por, mund të quhet gjithashtu një databazë e shkatërrimit (Ohm 2010) , e cila mund të përdoret për të gjitha llojet e qëllimeve joetike, siç do ta përshkruaj në kapitullin 6 (Etika).