2.3.2.1 Eksik

Ne olursa olsun "büyük" "büyük veri" muhtemelen istediğiniz bilgileri yok nasıl.

En büyük veri kaynakları onlar sizin araştırma için isteyeceksiniz bilgi yok bu anlamda eksik. Bu araştırma dışındaki amaçlar için oluşturulan ortak bir veri özelliğidir. Birçok sosyal bilimciler zaten böyle istediğin soruyu sormadı varolan anket olarak, eksiklik ile başa deneyim oldu. Ne yazık ki, eksiklik sorunları büyük verilerde daha aşırı olma eğilimindedir. teorik yapıları operasyonel için demografi, diğer platformlarda davranış ve veri: benim deneyim, büyük veri, üç sosyal araştırma için yararlı bilgi türlerini eksik olma eğilimindedir.

Eksiklik bu formların tamamı üç Gueorgi Kossinets ve Duncan Watts tarafından yapılan bir çalışmada gösterilmiştir (2006) bir üniversitede sosyal ağ evrimi hakkında. Kossinets ve Watts (araştırmacılar e-postaların içeriğine erişimi yoktu) Ne zaman e-postalar gönderdi kimin hakkında kesin bilgiye sahip üniversite-posta günlükleri ile başladı. Bu e-posta kayıtları inanılmaz bir veri kümesi gibi gelebilir, ama, onlar-rağmen boyutu ve ayrıntı-temelde eksik. Örneğin, e-posta günlükleri cinsiyet ve yaş gibi öğrencilerin demografik özellikleri, ilgili verileri içermemektedir. Dahası, e-posta günlükleri, telefon görüşmeleri, kısa mesaj ya da yüz yüze konuşmaları gibi diğer medya aracılığıyla iletişim hakkında bilgi içermez. Son olarak, e-posta günlükleri doğrudan ilişkiler, pek çok mevcut teorileri teorik yapıları hakkında bilgi içermez. Ben araştırma stratejileri hakkında konuşmak Daha sonra bölümde, sen Kossinets ve Watts bu sorunları nasıl çözdüklerini göreceksiniz.

eksiklik üç çeşit, teorik yapıları faaliyete eksik veri sorunu çözmek için zor olan, ve benim deneyim, genellikle yanlışlıkla veri bilim adamları tarafından gözardı edilir. Kabaca, teorik yapılar ne yazık ki, bu yapılar her zaman net bir şekilde tanımlanmış ve ölçülebilir edilemez, sosyal bilimciler çalışma soyut fikirler, ancak. Örneğin, ampirik daha zeki olan insanlar daha fazla para kazanmak görünüşte basit iddiayı test etmek için çalışıyor düşünelim. Bu iddiayı test etmek için istihbarat nedir, ". zeka" ölçmek gerekir Ama olur? Örneğin, Gardner (2011) zekanın sekiz farklı formları aslında olduğunu savundu. Ve, doğru istihbarat bu formlardan herhangi ölçebilir orada prosedürler nelerdir? psikologlar tarafından işin muazzam miktarlarda olmasına rağmen, bu sorular hala net cevaplar yok. Böylece, daha akıllı nispeten basit bir iddia-insanlar daha fazla para kazanmak-can veriye teorik yapıları işler hale getirmek zor olabilir çünkü ampirik değerlendirmek zor olabilir. "Normları", "sosyal sermaye" ve "demokrasi bulunmaktadır faaliyete önemli ama zor olan teorik yapıların diğer örnekleri." Sosyal bilimciler teorik yapıları ve veri yapı geçerliliği arasındaki maçı arayın (Cronbach and Meehl 1955) . Ve, yapıları bu liste anlaşılacağı gibi, onlar araştırma amacıyla toplanmıştır verilerle çalıştığınız zaman bile, geçerliliği, sosyal bilimciler çok uzun bir süre için mücadele olması bir sorun olduğunu yaparız. Araştırmanın dışındaki amaçlar için toplanan verilerle çalışırken, yapı geçerliliği sorunları daha da zor olan (Lazer 2015) .

Bir araştırma kağıdı okurken, bir hızlı ve kullanışlı bir yol yapı geçerliliği ile ilgili endişeler genellikle yapıların cinsinden ifade edilir kağıt, ana iddiasını almaktır değerlendirmek ve kullanılan verilerin açısından yeniden ifade eder. Örneğin, daha zeki insanların daha fazla para kazanmak olduğunu göstermek için iddia iki varsayımsal çalışmaları göz önünde bulundurun:

  • Çalışma 1: analitik zeka-bir Testi iyi okudu testi Raven Progresif Matrisler üzerinde iyi puan insanlar (Carpenter, Just, and Shell 1990) kendi vergi beyannamelerinin daha yüksek rapor gelir mü
  • Çalışma 2: uzun kelime lüks markalar söz olasılığı daha yüksektir kullanılan Twitter'da insanlar

Her iki durumda da, araştırmacılar daha zeki insanlar daha fazla para kazanmak olduğunu göstermiştir iddia olabilir. Ama, ilk çalışmada teorik yapıları iyi verilerle operasyonel edilir ve ikinci değiller. Bu örnekte gösterildiği gibi Dahası, daha fazla veri otomatik olarak yapı geçerliliği ile ilgili sorunları çözmez. Bir milyon tweets, bir milyar tweets, ya da bir trilyon tweets dahil isteyip Çalışması 2 sonuçlarını şüphesi olmasın. Yapı geçerliği fikri aşina olmayan araştırmacılar için Tablo 2.2 dijital iz verilerini kullanarak teorik yapıları operasyonel çalışmaların bazı örnekler verilmiştir.

Tablo 2.2: daha soyut teorik kavramların tedbirler olarak kullanılan dijital izleri örnekleri. Sosyal bilimciler bu maç yapı geçerliğini diyoruz ve sosyal araştırmalar için büyük veri kaynakları kullanılarak büyük bir meydan okuma olduğunu (Lazer 2015) .
dijital iz teorik yapı alıntı
Bir üniversite-posta tomruk (meta-veri yalnızca) Sosyal ilişkiler Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Weibo sosyal medya mesajlar sivil katılım Zhang (2016)
Bir firma e-posta tomruk (meta-veri ve tam metin) bir kuruluşta kültürel uyum Goldberg et al. (2015)

işlevsel hale teorik yapıları için eksik veri sorunu çözmek için oldukça zor olsa da, eksik demografik bilgiler ve diğer platformlarda davranışları üzerindeki eksik bilgi problemine üç ortak çözümler vardır. İlk aslında ihtiyacınız olan verileri toplamak için; Anketlere hakkında size zaman Bölüm 3 bu bir örnek anlatacağım. Ne yazık ki, veri toplama, bu tür, her zaman mümkün değildir. İkinci ana çözüm veri bilimciler, kullanıcı nitelik çıkarsama ve hangi sosyal bilimciler ikame yöntemleridir çağrı dediğimiz yapmaktır. Bu yaklaşımda, araştırmacılar diğer insanların niteliklerini anlaması için bazı insanlar var bilgileri kullanabilirsiniz. Kossinets tarafından kullanılan üçüncü olası çözüm-bir çoklu veri kaynaklarına birleştirmek için Watt-oldu. Bu işlem bazen birleştirilmesi veya kayıt bağı denir. Bu işlem için benim en sevdiğim metafor hiç kayıt bağlantı üzerine yazılmış ilk kağıt ilk paragrafında önerilmiştir (Dunn 1946) :

"Dünyada her kişi Life Kitabı oluşturur. Bu Kitap doğum ile başlar ve ölümle sona erer. Onun sayfalar hayatında prensip olayların kayıtları oluşur. Tutanak bağlantı bir hacim içine bu kitabın sayfalarını montaj işlemine verilen addır. "

Bu pasaj 1946 yılında yazılmış ve o zaman, insanlar Yaşam Kitabı doğum, evlenme, boşanma ve ölüm gibi önemli yaşam olayları içerebilir düşünüyorduk. bu farklı sayfalar (yani, bizim dijital izleri), birbirine bağlı olabilir, ancak şimdi insanlar hakkında çok fazla bilgi kaydedilmesi, Hayat Kitabı, inanılmaz detaylı portre olabilir. Yaşam Bu Kitap araştırmacılar için büyük bir kaynak olabilir. Ancak, Hayat Kitabı da harabe bir veritabanı denilebilir (Ohm 2010) aşağıda büyük veri kaynakları tarafından toplanan bilgilerin hassas doğası hakkında konuşmak aşağıda daha tarif edildiği gibi, etik olmayan amaçlarla her türlü için kullanılan olabilir, ve Bölüm 6 (Etik) 'de.