3.6.1 soran Amplified

Bu çeviri bir bilgisayar tarafından oluşturuldu. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.6.1 soran Amplified

Dijital izleri için anket bağlayan her zaman herkese senin sorular sorarak gibi olabilir.

örnek anketler ve nüfus sayımlarında: soran genellikle iki ana kategoride geliyor. Eğer insanlar küçük bir sayıda erişmek örnek anketler, esnek, zamanında ve nispeten ucuz olabilir. onlar bir örneğe dayalı Ancak, örnek anketler, genellikle kendi çözünürlükte sınırlıdır; Bir örnek anket ile, belirli coğrafi bölgeler hakkında ya da belirli demografik gruplar için tahminler yapmak çoğu zaman zordur. Sayımlar, diğer yandan, nüfusun herkes röportaj için çalışır. Onlar büyük çözünürlüğe sahip, ancak genellikle, pahalı odak dar (sadece sorulara az sayıda dahil), ve (böyle her 10 yıl olarak, sabit bir programa üzerinde gerçekleşmesi) zamanında değil (Kish 1979) . Araştırmacılar örnek anketler ve nüfus sayımlarında en iyi özelliklerini birleştirmek eğer Şimdi düşünün; Araştırmacılar, her gün herkese her soruyu sorabilirsiniz eğer düşünün.

Açıkçası, bu sürekli, her yerde, her zaman açık anket sosyal bilimler fantezi bir türüdür. Ancak, birçok kişi dijital izleri olan kişilerin az sayıda anket sorularını birleştirerek bu yaklaştığı başlayabilir anlaşılmaktadır. Ben kombinasyonu bu tür soran güçlendirilmiş diyoruz. aferin, o bize (küçük coğrafi alanlar için) daha yerel tahmini, (belirli demografik gruplar için) daha granüler ve daha zamanında sağlar yardımcı olabilir.

güçlendirilmiş soran bir örneği fakir ülkelerde kılavuz gelişmesine yardımcı olacak verileri toplamak istedim Joshua BLUMENSTOCK, çalışmalarından gelmektedir. Daha spesifik olarak, BLUMENSTOCK bir araştırmanın esneklik ve frekansa sahip bir nüfus sayımının eksiksiz kombine zenginlik ve refahını ölçmek için bir sistem yaratmak istedik (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Aslında, ben zaten Bölüm 1'de kısaca BLUMENSTOCK çalışmalarını tarif ettik.

Başlamak için, BLUMENSTOCK Ruanda'da büyük cep telefonu sağlayıcısı ile ortaklık. Şirket, başlangıç zamanı, süresi ve arayan ve alıcının yaklaşık coğrafi konum olarak 2005 ile 2009 günlükleri her çağrı ve kısa mesaj hakkında bilgi içeren gelen davranışlarını kapsayan yaklaşık 1,5 milyon müşterilerden ona anonim işlem kayıtlarını sağladı. biz istatistiksel konular hakkında konuşmaya başlamadan önce, bu ilk adım zor biri olabilir işaret değer. Bölüm 2'de açıklandığı gibi, çoğu dijital iz veri araştırmacılara erişilemez. Ve, birçok şirket özel, çünkü onların verilerini paylaşmayı haklı tereddütlü; Bu müşterileri muhtemelen kendi kayıtları paylaşılan-in olacağını araştırmacılar toplu-ile beklemiyorduk olduğunu. Bu durumda, araştırmacılar verileri anonim dikkatli adımlar attı ve işlerini üçüncü şahıs (yani, kendi KİK) tarafından denetlenecektir. Ancak, bu çabalarına rağmen, bu veriler muhtemelen hala tanımlanabilir ve büyük olasılıkla hassas bilgiler içeriyor (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Ben Bölüm 6 Bu etik soruya dönersiniz.

BLUMENSTOCK zenginlik ve refahını ölçmek ilgi olduğunu hatırlayın. Ancak, bu özellikleri arama kayıtları doğrudan değil. Diğer bir deyişle, bu çağrı kayıtları bu araştırma, Bölüm 2'de ayrıntılı olarak ele alınmıştır dijital izleri ortak bir özellik için eksik Ancak, arama kayıtları muhtemelen zenginlik ve refahı ile ilgili bazı bilgilere sahip gibi görünmektedir. Yani, BLUMENSTOCK sorusu olabilir soran bir yolu: o kimse onların dijital iz verilere dayalı bir ankete nasıl tepki vereceğini tahmin etmek mümkün mü? Eğer öyleyse, o birkaç kişi sorarak biz herkes cevabını tahmin edebilirsiniz.

ampirik Bunu değerlendirmek için, Kigali Bilim ve Teknoloji Enstitüsü adlı BLUMENSTOCK ve araştırma görevlileri yaklaşık bin cep telefonu müşterilerinin bir örnek çağırdı. Araştırmacılar, bir sizde var mı böyle "gibi kendi zenginlik ve refahını ölçmek için onlara bir dizi soru sordu, sonra katılımcılara projenin hedeflerini açıkladı çağrı kayıtlarına anket yanıtları bağlamak için kendi rızası için istedi ve radyo? "ve" bir bisiklet sizde var mı? "(kısmi liste için 3.11 Şekil). Ankete tüm katılımcılar mali tazmin edilmiştir.

Denetlenen öğrenme ardından özellik mühendisliği: Sonraki, BLUMENSTOCK veri bilimi yaygın iki aşamalı prosedür kullanılır. İlk olarak, özellik mühendislik aşamasında, röportaj herkes için, BLUMENSTOCK her kişi hakkında özellikleri bir dizi haline çağrı kayıtları dönüştürülmüş; Veri bilim adamları "özellikleri" bu özellikleri diyebileceğimiz ve sosyal bilimciler onları aramak istiyorum "değişkenleri." Örneğin, her kişi için, BLUMENSTOCK aktiviteye sahip toplam gün sayısını hesaplanan, bir kişi ile temas halinde olmuştur farklı insanların sayısı, tutarı para böylece normal görüşme için harcanan ve. Kritik, iyi bir özellik mühendisliği araştırma ayarı bilgi gerektirir. (Biz uluslararası çağrı insanlar varlıklı olmasını bekliyor olabilir) yurtiçi ve uluslararası aramalar ayırt etmek önemlidir, örneğin, daha sonra bu özellik mühendislik aşamasında yapılmalıdır. Ruanda biraz anlayış ile bir araştırmacı bu özelliği dahil olmayabilir, ve daha sonra modelin tahmini performans yaşayacaktır.

Sonraki, denetimli öğrenme aşamasında, BLUMENSTOCK kendi özelliklerine göre her bir kişi için anket yanıtı tahmin etmek istatistiksel bir model inşa etti. Bu durumda, BLUMENSTOCK 10 kat çapraz doğrulama ile lojistik regresyon kullanılan, ancak o diğer istatistiksel veya makine öğrenme yaklaşımları çeşitli kullanılmış olabilir.

Peki ne kadar iyi işledi? BLUMENSTOCK "Sen? Bir radyo sizde var mı" ve benzeri sorular anket cevaplarını tahmin etmek mümkün oldu "Eğer bir bisiklet sizde var mı?" Çağrı kayıtlarından elde özellikleri kullanarak? Sayılır. tahminlerin doğruluğu bazı özellikleri (Şekil 3.11) yüksek idi. Ancak, basit bir alternatif karşı karmaşık bir tahmin yöntemi karşılaştırmak için her zaman önemlidir. Bu durumda, basit bir alternatif herkesin en yaygın cevap verecektir tahmin etmektir. Örneğin,% 97.3 BLUMENSTOCK herkes onun daha karmaşık prosedür (% 97.6 doğruluk) performansı şaşırtıcı benzerlik 97.3% doğruluk olurdu bir radyo sahibi rapor öngörüsünde olsaydı yani radyo sahibi bildirdi. Diğer bir deyişle, tüm fantezi veriler ve modelleme% 97.6 ile 97.3 den% tahmin doğruluğunu arttı. Ancak, gibi diğer sorulara, için "bir bisiklet var mı?", Tahminler% 67.6 ile% 54.4 yükseldi. Daha genel olarak, Şekil 3.12 gösterir bazı özellikler için BLUMENSTOCK sadece basit temel tahmini yapmak çok ötesinde geliştirmek değil, ama diğer özellikler için bazı gelişmeler oldu.

Şekil 3.11: çağrı kayıtları ile eğitimli istatistiksel model için Öngörülü doğruluk. BLUMENSTOCK (2014) ve Tablo 2'de elde edilen sonuçlar.

Şekil 3.11: çağrı kayıtları ile eğitimli istatistiksel model için Öngörülü doğruluk. Tablo 2 sonuçları Blumenstock (2014) .

Şekil 3.12: Basit temel tahminine arama kayıtları ile eğitimli istatistiksel model için tahmini doğruluk karşılaştırılması. Puan hafifçe çakışmasını önlemek için titreşimli edilir; bir bakınız Tablo 2 Blumenstock (2014) tam değerler için.

Bu noktada bu sonuçlar sadece bir yıl sonra, BLUMENSTOCK ve iki arkadaşları-Gabriel Cadamuro ve Robert On yayınlanan Bilim kağıt önemli ölçüde daha iyi sonuçlar ile biraz hayal kırıklığı, ama bu düşünce olabilir (Blumenstock, Cadamuro, and On 2015) . daha sofistike yöntemler kullanılır 1) (yani, yeni bir yaklaşım mühendislik ve daha sofistike bir makine öğrenme modelini özelliği) ve 2) yerine (örn bireysel anket sorularına yanıtları anlaması için çalışırken daha, iki ana teknik iyileştirme nedenleri vardı "bir radyo sizde var mı?"), bir bileşik refah endeksi anlaması için çalıştı.

BLUMENSTOCK ve arkadaşları iki yolla kendi yaklaşımın performansı sergiledi. Birincisi, onların numune insanlar için, onlar arama kayıtları (Şekil 3.14) kendi servet tahmin oldukça iyi bir iş yapabileceğini gördük. İkincisi, ve her zamankinden daha da önemlisi, BLUMENSTOCK ve arkadaşları kendi prosedür Ruanda zenginlik coğrafi dağılımı yüksek kaliteli tahminleri üretmek olabilir gösterdi. Daha spesifik olarak, onlar çağrı kayıtlarında tüm 1,5 milyon insanın zenginliği tahmin etmek yaklaşık 1.000 kişi kendi örnek üzerinde eğitildi kendi makine öğrenme modelini kullanmıştır. Ayrıca, çağrı verileri gömülü coğrafi veriler (çağrı veri her çağrı için en yakın hücre kulenin yerini içerdiğini hatırlamak), araştırmacılar her kişinin ikamet ettiği yaklaşık yerini tahmin başardık. Birlikte bu iki tahminleri koymak, araştırma son derece ince mekansal ayrıntı düzeyinde abone zenginlik coğrafi dağılımı tahmini üretti. Örneğin, Ruanda'nın 2148 hücrelerinde (ülkedeki en küçük idari birim) her ortalama servet tahmin olabilir. Bu tahmin servet değerleri, kontrol etmek zor bu yüzden taneli idi. Yani, araştırmacılar Ruanda'nın 30 ilçede ortalama zenginlik tahmin üretmek için kendi sonuçlarını toplanmış. Bu ilçe düzeyinde tahminleri şiddetle altın standart geleneksel anket tahminlerine ilişkili olduğu, Ruanda Nüfus ve Sağlık Araştırması (Şekil 3.14). iki kaynaktan gelen tahminler benzer olmasına rağmen, BLUMENSTOCK ve meslektaşları tahminleri (maliyet değişken maliyetleri açısından ölçülmüştür) yaklaşık 50 kat daha ucuz ve 10 kat daha hızlı idi. Bu maliyet dramatik azalma yerine her birkaç yılda bir-şekilde yürütülüyor olduğunu-Anketler büyük dijital iz verileri ile birlikte küçük anket melez her ay çalıştırmak olabilir Nüfus ve Sağlık için standart olduğu anlamına gelir.

Şekil 3.13: BLUMENSTOCK, Cadamuro şematik ve Açık (2015). Telefon şirketi çağrı verileri her kişi için bir satır ve her bir özellik (yani, değişken) için bir sütun ile bir matris dönüştürüldü. Daha sonra, araştırmacılar özelliği matrisi ile kişiden anket yanıtları tahmin etmek denetimli öğrenme modelini inşa etti. Ardından, denetimli öğrenme modeli herkes için anket yanıtları suçlamak için kullanılmıştır. Özünde, araştırmacılar yaklaşık bir milyon insanın zenginliği suçlamak için yaklaşık bin kişinin yanıtları kullanılır. Ayrıca, araştırmacılar kendi aramaların yerlerde dayalı tüm 1,5 milyon kişiye ikamet yaklaşık yerini tahmin. Bu iki tahminler kombine edildiğinde tahmini zenginlik ve ikamet-sonuç tahmini yer Nüfus ve Sağlık Araştırması, bir altın standart geleneksel anketin (Şekil 3.14) tahminlerine benzerdi.

Şekil 3.13: Şematik Blumenstock, Cadamuro, and On (2015) . Telefon şirketi çağrı verileri her bir özellik (yani, değişken) her kişi için bir satır ve bir sütun ile bir matris dönüştürüldü. Daha sonra, araştırmacılar özelliği matrisi ile kişiden anket yanıtları tahmin etmek denetimli öğrenme modelini inşa etti. Ardından, denetimli öğrenme modeli herkes için anket yanıtları suçlamak için kullanılmıştır. Özünde, araştırmacılar yaklaşık bir milyon insanın zenginliği suçlamak için yaklaşık bin kişinin yanıtları kullanılır. Ayrıca, araştırmacılar kendi aramaların yerlerde dayalı tüm 1,5 milyon kişiye ikamet yaklaşık yerini tahmin. Bu iki tahminler kombine edildiğinde tahmini zenginlik ve ikamet-sonuç tahmini yer Nüfus ve Sağlık Araştırması, bir altın standart geleneksel anketin (Şekil 3.14) tahminlerine benzerdi.

Şekil 3.14: BLUMENSTOCK, Cadamuro ve Açık (2015) sonuçları. Bireysel düzeyde, araştırmacılar çağrı kayıtlarından birinin servet tahmin makul bir iş yapmak başardık. ilçe düzeyinde zenginlik-zenginlik ve rezidans-sonuç yerine bireysel düzeyde tahminleri esas alınmıştır tahminleri Nüfus ve Sağlık Araştırması, altın standart geleneksel anket sonuçlarına benzerdir.

Şekil 3.14: sonuçları Blumenstock, Cadamuro, and On (2015) . Bireysel düzeyde, araştırmacılar çağrı kayıtlarından birinin servet tahmin makul bir iş yapmak başardık. ilçe düzeyinde zenginlik-zenginlik ve rezidans-sonuç yerine bireysel düzeyde tahminleri esas alınmıştır tahminleri Nüfus ve Sağlık Araştırması, altın standart geleneksel anket sonuçlarına benzerdir.

Sonuç olarak, BLUMENSTOCK altın standart anket tahminleri ile karşılaştırılabilir tahminler üretmek için dijital iz verileriyle yaklaşım kombine anket verilerini soran yükseltildi. Bu özel örnekte de güçlendirilmiş soran ve geleneksel araştırma yöntemleri arasındaki dengeler biraz açıklık getirmektedir. İlk olarak, güçlendirilmiş soran tahminler, daha zamanında önemli ölçüde daha ucuz ve daha ayrıntılı idi. Ancak, diğer taraftan, bu zamanda, çoğaltılmış soran bu tür sağlam bir teorik temel yoktur. zaman böyle olmaz o iş olacak ve o zaman, bu bir örnek görünmüyor edilir. Ayrıca, güçlendirilmiş soran yaklaşımı henüz tahminleri etrafında belirsizlik ölçmek için iyi yolu yoktur. Ancak, güçlendirilmiş soran istatistik-model-tabanlı sonrası tabakalaşma üç büyük alanlara derin bağlantıları vardır (Little 1993) , isnat (Rubin 2004) , ve küçük alan tahmini (Rao and Molina 2015) -ve bu yüzden ilerleme olacak bekliyoruz hızlı olabilir.

Amplifiye soran özel durumunuza uygun olabilir temel bir tarifi izler. İki malzemeler ve iki adım vardır. İki maddeler 1) (yani geniş ama ince bir dijital iz veri kümesi vardır, birçok insanı değil bilgi her kişi hakkında gerekir) ve (yani dar ama kalın 2) bir anket var, o var sadece birkaç kişi, ama o insanlar hakkında gereken bilgileri) sahiptir. Sonra, iki adım vardır. Birincisi, her iki veri kaynakları insanlar için, anket cevapları tahmin etmek dijital izleme verilerini kullanan bir makine öğrenme modeli oluşturmak. Sonraki dijital iz veri herkesin anket cevapları suçlamak için bu makine öğrenme modelini kullanın. Böylece, insanlar bir sürü sormak onların cevabını tahmin etmek için kullanılabilir olabilir o insanlar dijital iz veri bakmak istiyorum bazı soru varsa.

Soruna BLUMENSTOCK birinci ve ikinci girişimi karşılaştıran da araştırma anket üçüncü dönemi yaklaşımlarına ikinci döneminden geçiş hakkında önemli bir ders göstermektedir: başlangıç sonu değildir. Yani, birçok kez, ilk yaklaşım en iyi olmayacak, ama araştırmacılar çalışmalarına devam eğer, her şey daha iyi alabilirsiniz. dijital çağda sosyal araştırmalara yeni yaklaşımlar değerlendirirken Daha genel olarak, iki farklı değerlendirmeler yapmak önemlidir: 1) Şimdi bu işi nasıl yaptığını iyi ve 2) bu veri manzara gibi gelecekte de işe yarayabilecek sizce ne kadar iyi değişiklikler ve araştırmacı olarak soruna daha fazla dikkat adamak. Araştırmacılar, değerlendirmenin ilk tür (ne kadar iyi araştırma bu özel parça) yapmak için eğitilmiş olsa da, ikinci genellikle daha önemlidir.