2.2 Büyük veri

Büyük veriler, şirketler ve hükümetler tarafından araştırma dışındaki amaçlarla oluşturulmakta ve toplanmaktadır. Bu verileri araştırma için kullanmak, bu yüzden, yeniden fiyatlandırmayı gerektirir.

Dijital çağda birçok kişinin sosyal araştırmalarla karşılaşmasının ilk yolu, genellikle büyük veri olarak adlandırılan şeydir. Bu terimin yaygın kullanımına rağmen, büyük verilerin bile ne olduğu konusunda bir fikir birliği yoktur. Bununla birlikte, büyük verinin en yaygın tanımlarından biri “3 V” e odaklanır: Hacim, Çeşitlilik ve Hız. Kabaca, çeşitli biçimlerde çok sayıda veri var ve sürekli olarak oluşturuluyor. Bazı büyük eleştirmenler, Veracity ve Value gibi başka “V” ler eklerken, bazı eleştirmenler Vague ve Vacuous gibi V'leri ekliyorlar. Sosyal araştırma amaçları için 3 “V” (veya 5 “Vs” veya 7 “V”) yerine, daha iyi bir başlangıç ​​noktası 5 “W” olduğunu düşünüyorum: Kim, Ne, Nerede, Ne zaman? , ve neden. Aslında, büyük veri kaynaklarının yarattığı zorlukların ve fırsatların çoğunun sadece bir “W” den kaynaklandığını düşünüyorum: Neden.

Analog çağda, sosyal araştırma için kullanılan verilerin çoğu araştırma yapmak amacıyla oluşturulmuştur. Bununla birlikte, dijital çağda, şirketler ve hükümetler tarafından, hizmet sağlama, kâr sağlama ve yasaların uygulanması gibi araştırma dışındaki amaçlar için çok miktarda veri oluşturulmaktadır. Bununla birlikte, yaratıcı insanlar, bu kurumsal ve hükümet verilerini araştırma için yeniden yapılandırabileceğinizi fark ettiler. Bölüm 1'deki sanat benzetmesine geri dönersek, tıpkı Duchamp'ın sanat yaratmak için bulunan bir nesneyi yeniden tasarladığı gibi, bilim adamları artık araştırmalar yapmak için buldukları verileri yeniden kullanabilirler.

Şüphesiz, yeniden yapılanma için çok büyük fırsatlar olsa da, araştırma amaçları için yaratılmamış verilerin kullanılması yeni zorluklar da beraberinde getirmektedir. Örneğin, Genel Sosyal Anket gibi geleneksel bir kamuoyu anketiyle Twitter gibi bir sosyal medya hizmetini karşılaştırın. Twitter'ın ana hedefleri, kullanıcılarına bir hizmet sunmak ve kâr elde etmektir. Öte yandan Genel Sosyal Araştırma, özellikle kamuoyu araştırmaları için sosyal araştırmalar için genel amaçlı veriler oluşturmaya odaklanmıştır. Hedeflerdeki bu farklılık, Twitter tarafından yaratılan ve Genel Sosyal Araştırma tarafından oluşturulan verilerin, her ikisi de kamuoyunu okumak için kullanılabilmesine rağmen, farklı özelliklere sahip olduğu anlamına gelir. Twitter, Genel Sosyal Anketin uyuşmadığı bir ölçekte ve hızda çalışır, ancak Genel Sosyal Anket'in aksine, Twitter kullanıcıları dikkatli bir şekilde örneklemez ve zaman içinde karşılaştırılabilirliği sürdürmek için fazla çalışmaz. Bu iki veri kaynağı çok farklı olduğu için, Genel Sosyal Anketin Twitter'dan daha iyi ya da tam tersi olduğunu söylemek mantıklı değil. Küresel ruh halinin saatlik ölçümlerini istiyorsanız (örneğin Golder and Macy (2011) ), Twitter en iyisidir. Öte yandan, Amerika Birleşik Devletleri'ndeki tutumların kutuplaşmasında (örneğin, DiMaggio, Evans, and Bryson (1996) ) uzun vadeli değişiklikleri anlamak istiyorsanız, Genel Sosyal Araştırma en iyi seçimdir. Daha genel olarak, büyük veri kaynaklarının diğer veri türlerinden daha iyi ya da daha kötü olduğunu tartışmaya çalışmak yerine, bu bölüm, büyük veri kaynaklarının ne tür araştırma sorularının cazip özelliklere sahip olduğunu ve hangi tür sorular için uygun olmayabileceğini açıklığa kavuşturmaya çalışacaktır. ideal.

Büyük veri kaynaklarını düşünürken, birçok araştırmacı derhal, arama motoru kayıtları ve sosyal medya yayınları gibi şirketler tarafından oluşturulan ve toplanan çevrimiçi verilere odaklanır. Bununla birlikte, bu dar odak diğer iki önemli veri kaynağını ortaya çıkarmaktadır. İlk olarak, giderek artan kurumsal büyük veri kaynakları fiziksel dünyadaki dijital cihazlardan gelmektedir. Örneğin, bu bölümde, bir işçinin verimliliğinin meslektaşlarının verimliliğinden nasıl etkilendiğini incelemek için süpermarket check-out verilerini yeniden üreten bir çalışmayı anlatacağım (Mas and Moretti 2009) . Ardından, daha sonraki bölümlerde, cep telefonlarından (Blumenstock, Cadamuro, and On 2015) arama kayıtlarını ve elektrik araçları tarafından oluşturulan faturalama verilerini kullanan araştırmacıları size anlatacağım (Allcott 2015) . Bu örneklerin gösterdiği gibi, kurumsal büyük veri kaynakları sadece çevrimiçi davranışlardan daha fazlasıdır.

Çevrimiçi davranışa dar bir odaklanmanın kaçırdığı ikinci büyük veri kaynağı, hükümetler tarafından oluşturulan verilerdir. Araştırmacıların devlet idari kayıtları dedikleri bu hükümet verileri, vergi kayıtları, okul kayıtları ve hayati istatistik kayıtları (örn. Doğum kayıtları ve ölüm kayıtları) gibi şeyleri içerir. Hükümetler, bazı durumlarda yüzlerce yıldır bu türden veriler yaratıyorlar ve sosyal bilimciler, sosyal bilimciler olduğu sürece onları sömürüyorlardı. Bununla birlikte, değişenler, hükümetlerin verileri toplaması, iletmesi, depolaması ve analiz etmesi için önemli ölçüde kolaylaştıran dijitalleştirmedir. Örneğin, bu bölümde, size New York City hükümetinin dijital taksi sayaçlarından gelen verileri, emek ekonomisinde temel bir tartışmayı ele almak için tekrar eden bir çalışmayı anlatacağım (Farber 2015) . Ardından, daha sonraki bölümlerde, hükümet tarafından toplanan oylama kayıtlarının bir ankette (Ansolabehere and Hersh 2012) ve bir deneyde nasıl kullanıldığını size anlatacağım (Bond et al. 2012) .

Geri dönüşüm fikrinin büyük veri kaynaklarından öğrenmenin temelini oluşturduğunu düşünüyorum. Bu nedenle, özellikle daha büyük veri kaynaklarının özellikleri (bölüm 2.3) ve bunların araştırmada nasıl kullanılabileceği hakkında konuşmadan önce (bölüm 2.4), repurposing hakkında iki parça genel tavsiye sunmak. Birincisi, “bulunan” veriler ve “tasarlanan” veriler arasında kurulduğum kontrastı düşünmek cazip gelebilir. Bu yakın, ama bu doğru değil. Araştırmacıların bakış açısına göre, büyük veri kaynakları “bulunmakta” ​​olsalar da, sadece gökten düşmezler. Bunun yerine, araştırmacılar tarafından “bulunan” veri kaynakları, bir amaç için birileri tarafından tasarlanmaktadır. “Bulunan” veriler bir kişi tarafından tasarlandığından, verilerinizi oluşturan insanlar ve süreçler hakkında mümkün olduğunca çok şey anlamaya çalıştığınızı her zaman öneriyorum. İkincisi, verileri yeniden kullandığınızda, probleminiz için ideal veri kümesini hayal etmek ve ardından ideal veri kümesini kullandığınız ile karşılaştırmak son derece yararlıdır. Verilerinizi kendiniz toplanmadıysanız, istediğiniz ve sahip olduklarınız arasında önemli farklılıklar olması muhtemeldir. Bu farklılıkları fark etmek, sahip olduğunuz verilerin neler yapabileceğini ve öğrenemeyeceğinizi açıklığa kavuşturmaya yardımcı olacak ve toplamanız gereken yeni veriler önerebilir.

Benim deneyimlerime göre, sosyal bilimciler ve veri bilimcileri, çok farklı bir şekilde yeniden fiyatlandırmaya yöneliyorlar. Araştırma için tasarlanan verilerle çalışmaya alışmış olan sosyal bilimciler, tipik olarak, güçlü yanlarını göz ardı ederek, tekrarlanan verilerle ilgili sorunları belirtmekte hızlıdırlar. Öte yandan, veri bilimcileri, zayıflıklarını göz ardı ederken, tekrarlanan verilerin faydalarını belirtmek için genellikle hızlıdır. Doğal olarak, en iyi yaklaşım bir melezdir. Yani, araştırmacıların büyük veri kaynaklarının özelliklerini (hem iyi hem de kötü) anlamalı ve onlardan nasıl öğrenileceğini öğrenmeliler. Ve bu bölümün geri kalanı için plan budur. Bir sonraki bölümde, büyük veri kaynaklarının on ortak özelliğini anlatacağım. Ardından, bir sonraki bölümde, bu tür verilerle iyi çalışabilecek üç araştırma yaklaşımını açıklayacağım.