5.2.1 Galaxy Zoo

Galaxy Zoo menggabungkan upaya banyak relawan non-ahli untuk mengklasifikasikan satu juta galaksi.

Galaxy Zoo tumbuh dari masalah yang dihadapi oleh Kevin Schawinski, seorang mahasiswa pascasarjana di Astronomi di Universitas Oxford pada tahun 2007. Penyederhanaan cukup sedikit, Schawinski tertarik galaksi, dan galaksi dapat diklasifikasikan oleh morfologi-elips atau mereka spiral-dan oleh mereka warna biru atau merah. Pada saat itu, kebijaksanaan konvensional di antara para astronom adalah bahwa galaksi spiral, seperti Bima Sakti kita, yang berwarna biru (muda menunjukkan) dan bahwa galaksi elips yang berwarna merah (yang menunjukkan usia tua). Schawinski meragukan kebijaksanaan konvensional ini. Dia menduga bahwa sementara pola ini mungkin benar secara umum, mungkin ada sejumlah cukup besar pengecualian, dan bahwa dengan mempelajari banyak galaksi-orang yang tidak biasa orang-orang yang tidak sesuai dengan yang diharapkan pola-ia bisa belajar sesuatu tentang proses melalui mana galaksi terbentuk.

Dengan demikian, apa yang Schawinski dibutuhkan untuk membalikkan kebijaksanaan konvensional adalah satu set besar galaksi morfologis diklasifikasikan; yaitu, galaksi yang telah diklasifikasikan sebagai spiral atau elips. Masalahnya, bagaimanapun, adalah bahwa metode algoritmik yang ada untuk klasifikasi yang belum cukup baik untuk digunakan untuk penelitian ilmiah; dengan kata lain, mengklasifikasi galaksi itu, pada waktu itu, masalah yang sulit untuk komputer. Oleh karena itu, yang diperlukan adalah sejumlah besar galaksi diklasifikasikan manusia. Schawinski melakukan klasifikasi masalah ini dengan antusiasme mahasiswa pascasarjana. Dalam sesi maraton tujuh, 12 jam hari, ia mampu mengklasifikasikan 50.000 galaksi. Sementara 50.000 galaksi mungkin terdengar seperti banyak, itu sebenarnya hanya sekitar 5% dari hampir satu juta galaksi yang telah difoto di Sloan Digital Sky Survey. Schawinski menyadari bahwa ia membutuhkan pendekatan yang lebih terukur.

Untungnya, ternyata tugas mengklasifikasikan galaksi tidak memerlukan pelatihan lanjutan dalam astronomi; Anda bisa mengajarkan seseorang untuk melakukannya cukup cepat. Dengan kata lain, meskipun mengklasifikasi galaksi adalah tugas yang sulit untuk komputer, itu cukup mudah bagi manusia. Jadi, sambil duduk di sebuah pub di Oxford, Schawinski dan sesama astronom Chris Lintott bermimpi sebuah situs web di mana relawan akan mengklasifikasikan gambar galaksi. Beberapa bulan kemudian, Galaxy Zoo lahir.

Di website Galaxy Zoo, relawan akan menjalani beberapa menit dari pelatihan; misalnya, belajar perbedaan antara spiral dan galaksi elips (Gambar 5.2). Setelah pelatihan ini, para relawan harus melewati relatif mudah kuis-benar mengklasifikasikan 11 dari 15 galaksi dengan dikenal klasifikasi-dan kemudian relawan akan mulai klasifikasi nyata dari galaksi diketahui melalui berbasis web sederhana antarmuka (Gambar 5.3). Transisi dari relawan untuk astronom akan berlangsung dalam waktu kurang dari 10 menit dan hanya diperlukan melewati terendah rintangan, kuis sederhana.

Gambar 5.2: Contoh dua jenis utama galaksi: spiral dan elips. Proyek Galaxy Zoo digunakan lebih dari 100.000 relawan untuk kategori lebih dari 900.000 gambar. Sumber: www.galaxyzoo.org.

Gambar 5.2: Contoh dua jenis utama galaksi: spiral dan elips. Proyek Galaxy Zoo digunakan lebih dari 100.000 relawan untuk kategori lebih dari 900.000 gambar. Sumber: www.galaxyzoo.org .

Gambar 5.3: layar Masukan mana pemilih diminta untuk mengklasifikasikan satu gambar. Sumber: www.galaxyzoo.org.

Gambar 5.3: layar Masukan mana pemilih diminta untuk mengklasifikasikan satu gambar. Sumber: www.galaxyzoo.org .

Galaxy Zoo tertarik relawan awal setelah proyek ini ditampilkan dalam sebuah artikel berita, dan dalam waktu sekitar enam bulan proyek tumbuh melibatkan lebih dari 100.000 ilmuwan warga, orang yang berpartisipasi karena mereka menikmati tugas dan mereka ingin membantu astronomi muka. Bersama-sama, 100.000 relawan ini berkontribusi total lebih dari 40 juta klasifikasi, dengan mayoritas klasifikasi datang dari, kelompok inti yang relatif kecil dari peserta (Lintott et al. 2008) .

Para peneliti yang memiliki pengalaman mempekerjakan asisten penelitian sarjana mungkin segera menjadi skeptis tentang kualitas data. Sementara skeptisisme ini adalah wajar, Galaxy Zoo menunjukkan bahwa ketika kontribusi relawan dengan benar dibersihkan, debiased, dan agregat, mereka dapat menghasilkan hasil yang berkualitas tinggi (Lintott et al. 2008) . Trik penting untuk mendapatkan orang-orang untuk membuat data kualitas profesional adalah redundansi; yaitu, setelah tugas yang sama dilakukan oleh banyak orang yang berbeda. Di Kebun Binatang Galaxy, ada sekitar 40 klasifikasi per galaksi; peneliti menggunakan asisten penelitian sarjana tidak mampu tingkat redundansi dan karena itu harus jauh lebih peduli dengan kualitas masing-masing klasifikasi individu. Apa relawan kekurangan dalam pelatihan, mereka dibuat untuk dengan redundansi.

Bahkan dengan beberapa klasifikasi per galaksi, bagaimanapun, menggabungkan set klasifikasi relawan untuk menghasilkan klasifikasi konsensus rumit. Karena tantangan sangat mirip timbul di sebagian besar proyek perhitungan manusia, akan sangat membantu untuk meninjau secara singkat tiga langkah bahwa peneliti Galaxy Zoo digunakan untuk menghasilkan klasifikasi konsensus mereka. Pertama, para peneliti "dibersihkan" data dengan menghapus klasifikasi palsu. Misalnya, orang yang berulang kali diklasifikasikan sama galaksi-sesuatu yang akan terjadi jika mereka mencoba untuk memanipulasi hasil-memiliki semua klasifikasi mereka dibuang. Ini dan pembersihan serupa lainnya dihapus sekitar 4% dari semua klasifikasi.

Kedua, setelah membersihkan, para peneliti diperlukan untuk menghilangkan bias sistematis dalam klasifikasi. Melalui serangkaian penelitian deteksi bias yang tertanam dalam proyek-untuk asli misalnya, menunjukkan beberapa relawan galaksi di monokrom bukan warna-para peneliti menemukan beberapa bias sistematis, seperti bias sistematis untuk mengklasifikasikan galaksi jauh spiral galaksi elips (Bamford et al. 2009) . Menyesuaikan untuk bias-bias sistematis sangat penting karena rata-rata banyak kontribusi tidak menghapus bias sistematik; hanya menghilangkan kesalahan acak.

Akhirnya, setelah debiasing, para peneliti membutuhkan metode untuk menggabungkan klasifikasi individu untuk menghasilkan klasifikasi konsensus. Cara paling sederhana untuk menggabungkan klasifikasi untuk setiap galaksi akan memilih klasifikasi yang paling umum. Namun, pendekatan ini akan memberikan masing-masing relawan bobot yang sama, dan para peneliti menduga bahwa beberapa relawan yang lebih baik di klasifikasi daripada yang lain. Oleh karena itu, para peneliti mengembangkan prosedur pembobotan berulang lebih kompleks yang mencoba untuk secara otomatis mendeteksi pengklasifikasi terbaik dan memberi mereka lebih banyak berat badan.

Dengan demikian, setelah tiga langkah proses pembersihan, debiasing, dan bobot-tim peneliti Galaxy Zoo telah dikonversi 40 juta klasifikasi relawan menjadi satu set konsensus klasifikasi morfologi. Ketika klasifikasi Galaxy Zoo ini dibandingkan dengan tiga sebelumnya upaya-skala yang lebih kecil oleh astronom profesional, termasuk klasifikasi oleh Schawinski yang membantu untuk menginspirasi Galaxy Zoo, ada kesepakatan yang kuat. Dengan demikian, para relawan, dalam agregat, mampu memberikan klasifikasi kualitas tinggi dan pada skala yang para peneliti tidak bisa menyamai (Lintott et al. 2008) . Bahkan, dengan memiliki klasifikasi manusia untuk seperti sejumlah besar galaksi, Schawinski, Lintott, dan lain-lain mampu menunjukkan bahwa hanya sekitar 80% dari galaksi mengikuti spiral diharapkan pola-biru dan ellipticals-dan merah banyak tulisan yang telah ditulis tentang penemuan ini (Fortson et al. 2011) .

Mengingat latar belakang ini, kita sekarang dapat melihat bagaimana Galaxy Zoo mengikuti split-berlaku-menggabungkan resep, resep yang sama yang digunakan untuk sebagian besar proyek perhitungan manusia. Pertama, masalah besar dibagi menjadi potongan. Dalam hal ini, masalah mengklasifikasikan satu juta galaksi dibagi menjadi satu juta masalah mengklasifikasi satu galaksi. Berikutnya, operasi diterapkan untuk setiap potongan secara independen. Dalam hal ini, relawan akan mengklasifikasikan setiap galaksi baik sebagai spiral atau elips. Akhirnya, hasil dikombinasikan untuk menghasilkan hasil konsensus. Dalam hal ini, menggabungkan langkah termasuk pembersihan, debiasing, dan bobot untuk menghasilkan klasifikasi konsensus untuk setiap galaksi. Meskipun sebagian besar proyek menggunakan resep umum ini, setiap langkah perlu disesuaikan dengan masalah khusus yang ditangani. Misalnya, dalam proyek perhitungan manusia dijelaskan di bawah, resep yang sama akan diikuti, tetapi berlaku dan menggabungkan langkah-langkah akan sangat berbeda.

Untuk tim Galaxy Zoo, proyek pertama ini hanya awal. Sangat cepat mereka menyadari bahwa meskipun mereka mampu mengklasifikasikan hampir satu juta galaksi, skala ini tidak cukup untuk bekerja dengan survei langit digital yang lebih baru, yang bisa menghasilkan gambar dari sekitar 10 miliar galaksi (Kuminski et al. 2014) . Untuk menangani peningkatan 1.000.000-10000000000-faktor 10.000-Galaxy Zoo perlu merekrut sekitar 10.000 kali lebih peserta. Meskipun jumlah relawan di Internet adalah besar, tidak terbatas. Oleh karena itu, para peneliti menyadari bahwa jika mereka akan menangani jumlah yang semakin meningkat dari data, baru, bahkan lebih terukur, pendekatan diperlukan.

Oleh karena itu, Manda Banerji-bekerja dengan Kevin Schawinski, Chris Lintott, dan anggota lain dari komputer pengajaran tim-mulai Zoo Galaxy untuk mengklasifikasikan galaksi. Lebih khusus, menggunakan klasifikasi manusia diciptakan oleh Galaxy Zoo, Banerji et al. (2010) membangun sebuah model pembelajaran mesin yang bisa memprediksi klasifikasi manusia dari galaksi berdasarkan karakteristik dari gambar. Jika mesin model pembelajaran ini bisa mereproduksi klasifikasi manusia dengan akurasi yang tinggi, maka bisa digunakan oleh para peneliti Galaxy Zoo untuk mengklasifikasikan jumlah dasarnya tak terbatas galaksi.

Inti dari pendekatan Banerji dan rekan 'sebenarnya cukup mirip dengan teknik yang umum digunakan dalam penelitian sosial, meskipun bahwa kesamaan mungkin tidak jelas pada pandangan pertama. Pertama, Banerji dan rekan diubah setiap gambar ke dalam satu set fitur numerik yang meringkas itu sifat. Misalnya, untuk gambar galaksi bisa ada tiga fitur: jumlah biru di gambar, varians dalam kecerahan piksel, dan proporsi piksel non-putih. Pemilihan fitur yang benar adalah bagian penting dari masalah, dan itu biasanya membutuhkan keahlian subjek-area. Langkah ini pertama, biasa disebut rekayasa fitur, menghasilkan matriks data dengan satu baris per gambar dan kemudian tiga kolom menggambarkan citra tersebut. Mengingat matriks data dan output yang diinginkan (misalnya, apakah gambar itu diklasifikasikan oleh manusia sebagai sebuah galaksi elips), peneliti memperkirakan parameter model-untuk statistik misalnya, sesuatu seperti regresi-yang logistik memprediksi klasifikasi manusia berdasarkan pada fitur gambar. Akhirnya, peneliti menggunakan parameter dalam model statistik ini untuk menghasilkan estimasi klasifikasi galaksi baru (Gambar 5.4). Untuk memikirkan analog sosial, bayangkan bahwa Anda memiliki informasi demografis sekitar satu juta siswa, dan Anda tahu apakah mereka lulus dari perguruan tinggi atau tidak. Anda bisa muat regresi logistik untuk data ini, dan kemudian Anda bisa menggunakan parameter model yang dihasilkan untuk memprediksi apakah siswa baru akan lulus dari perguruan tinggi. Dalam pembelajaran mesin, pendekatan-menggunakan ini contoh label untuk membuat model statistik yang kemudian dapat label baru data disebut diawasi belajar (Hastie, Tibshirani, and Friedman 2009) .

Gambar 5.4: deskripsi Sederhana bagaimana Banerji et al. (2010) menggunakan klasifikasi Galaxy Zoo untuk melatih model pembelajaran mesin untuk melakukan klasifikasi galaksi. Gambar galaksi dikonversi dalam matriks fitur. Dalam contoh sederhana ini ada tiga fitur (jumlah biru di gambar, varians dalam kecerahan piksel, dan proporsi piksel non-putih). Kemudian, untuk subset dari gambar, label Galaxy Zoo digunakan untuk melatih model pembelajaran mesin. Akhirnya, pembelajaran mesin yang digunakan untuk memperkirakan klasifikasi untuk galaksi yang tersisa. Saya menyebut jenis proyek generasi kedua komputasi manusia proyek karena, daripada harus manusia memecahkan masalah, mereka memiliki manusia membangun dataset yang dapat digunakan untuk melatih komputer untuk memecahkan masalah. Keuntungan dari pendekatan yang dibantu komputer ini adalah bahwa hal itu memungkinkan Anda untuk menangani jumlah dasarnya tak terbatas data hanya menggunakan jumlah terbatas usaha manusia.

Gambar 5.4: deskripsi Sederhana bagaimana Banerji et al. (2010) menggunakan klasifikasi Galaxy Zoo untuk melatih model pembelajaran mesin untuk melakukan klasifikasi galaksi. Gambar galaksi dikonversi dalam matriks fitur. Dalam contoh sederhana ini ada tiga fitur (jumlah biru di gambar, varians dalam kecerahan piksel, dan proporsi piksel non-putih). Kemudian, untuk subset dari gambar, label Galaxy Zoo digunakan untuk melatih model pembelajaran mesin. Akhirnya, pembelajaran mesin yang digunakan untuk memperkirakan klasifikasi untuk galaksi yang tersisa. Saya menyebut jenis proyek generasi kedua komputasi manusia proyek karena, daripada harus manusia memecahkan masalah, mereka memiliki manusia membangun dataset yang dapat digunakan untuk melatih komputer untuk memecahkan masalah. Keuntungan dari pendekatan yang dibantu komputer ini adalah bahwa hal itu memungkinkan Anda untuk menangani jumlah dasarnya tak terbatas data hanya menggunakan jumlah terbatas usaha manusia.

Fitur dalam Banerji et al. (2010) mesin model pembelajaran yang lebih kompleks daripada di mainan saya contoh-contohnya, ia menggunakan fitur seperti "de Vaucouleurs cocok rasio aksial" -dan Model nya tidak regresi logistik, itu adalah jaringan saraf tiruan. Menggunakan fitur nya, Model, dan konsensus klasifikasi Galaxy Zoo, dia mampu membuat bobot pada setiap fitur, dan kemudian menggunakan bobot tersebut untuk membuat prediksi tentang klasifikasi galaksi. Misalnya, analisis-rekannya menemukan bahwa gambar dengan rendah "de Vaucouleurs cocok rasio aksial" lebih mungkin untuk menjadi galaksi spiral. Mengingat bobot tersebut, dia mampu memprediksi klasifikasi manusia galaksi dengan cukup akurat.

Karya Banerji et al. (2010) berubah Galaxy Zoo menjadi apa yang saya sebut generasi kedua sistem perhitungan manusia. Cara terbaik untuk berpikir tentang sistem generasi kedua ini adalah bahwa daripada memiliki manusia memecahkan masalah, mereka memiliki manusia membangun dataset yang dapat digunakan untuk melatih komputer untuk memecahkan masalah. Jumlah data yang diperlukan untuk melatih komputer bisa begitu besar sehingga memerlukan kolaborasi massa manusia untuk menciptakan. Dalam kasus Galaxy Zoo, jaringan saraf yang digunakan oleh Banerji et al. (2010) diperlukan jumlah yang sangat besar contoh manusia-label untuk membangun sebuah model yang mampu andal mereproduksi klasifikasi manusia.

Keuntungan dari pendekatan yang dibantu komputer ini adalah bahwa hal itu memungkinkan Anda untuk menangani jumlah dasarnya tak terbatas data hanya menggunakan jumlah terbatas usaha manusia. Misalnya, seorang peneliti dengan sejuta galaksi diklasifikasikan manusia dapat membangun model prediksi yang kemudian dapat digunakan untuk mengklasifikasikan miliar atau bahkan triliun galaksi. Jika ada nomor besar dari galaksi, maka semacam ini hybrid manusia-komputer adalah benar-benar satu-satunya solusi yang mungkin. skalabilitas yang tak terbatas ini tidak gratis, namun. Membangun model pembelajaran mesin yang benar dapat mereproduksi klasifikasi manusia itu sendiri merupakan masalah yang sulit, tapi untungnya sudah ada buku bagus yang didedikasikan untuk topik ini (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo menunjukkan evolusi banyak proyek perhitungan manusia. Pertama, peneliti mencoba proyek dengan dirinya atau dengan tim kecil dari asisten peneliti (misalnya, Schawinski ini upaya klasifikasi awal). Jika pendekatan ini tidak baik skala, peneliti dapat pindah ke proyek perhitungan manusia di mana banyak orang berkontribusi klasifikasi. Tapi, untuk volume tertentu dari data, usaha manusia murni tidak akan cukup. Pada saat itu, para peneliti perlu membangun sistem generasi kedua di mana klasifikasi manusia digunakan untuk melatih model pembelajaran mesin yang kemudian dapat diterapkan untuk jumlah yang hampir tak terbatas dari data.