5.2.1 Galaxy Zoo

Galaxy Zoo kết hợp các nỗ lực của nhiều người không phải chuyên gia tình nguyện viên để phân loại một triệu thiên hà.

Galaxy Zoo lớn ra khỏi một vấn đề phải đối mặt của Kevin Schawinski, một sinh viên tốt nghiệp trong Thiên văn học tại Đại học Oxford vào năm 2007. Đơn giản hóa khá một chút, Schawinski đã quan tâm đến các thiên hà và các thiên hà có thể được phân loại theo hình thái-elip hoặc họ xoắn ốc và bởi màu xanh hoặc đỏ. Vào thời điểm đó, sự khôn ngoan thông thường giữa các nhà thiên văn học là thiên hà xoắn ốc, giống như thiên hà Milky Way của chúng ta, là màu xanh trong màu (chỉ thanh niên) và rằng các thiên hà hình elip là màu đỏ (chỉ tuổi già). Schawinski nghi ngờ sự khôn ngoan thông thường này. Ông nghi ngờ rằng trong khi mô hình này có thể là đúng nói chung, có thể là một số lượng khá lớn các trường hợp ngoại lệ, và rằng bằng cách nghiên cứu rất nhiều những thiên hà-bất thường những người không phù hợp với mong đợi mẫu-ông có thể tìm hiểu về quá trình thông qua đó các thiên hà hình thành.

Vì vậy, những gì Schawinski cần thiết để lật đổ sự khôn ngoan thông thường là một tập hợp lớn các thiên hà hình thái phân loại; đó là, các thiên hà đã được phân loại là xoắn ốc hoặc elip. Vấn đề này, tuy nhiên, là phương pháp thuật toán hiện có để phân loại là chưa đủ tốt để được sử dụng cho nghiên cứu khoa học; nói cách khác, các thiên hà phân loại là, tại thời điểm đó, một vấn đề đó là khó khăn cho các máy tính. Vì vậy, những gì cần thiết là một số lượng lớn các thiên hà phân loại của con người. Schawinski đảm nhận vấn đề phân loại này với sự nhiệt tình của một sinh viên đại học. Trong một phiên họp marathon bảy, ngày 12 giờ, ông đã có thể phân loại 50.000 thiên hà. Trong khi 50.000 thiên hà có vẻ như rất nhiều, nó thực sự là chỉ có khoảng 5% trong số gần một triệu thiên hà đó đã bị chụp ảnh trong Khảo sát bầu trời kỹ thuật số Sloan. Schawinski nhận ra rằng mình cần một cách tiếp cận mở rộng hơn.

May mắn thay, nó quay ra rằng nhiệm vụ của các thiên hà phân loại không yêu cầu đào tạo tiên tiến trong thiên văn học; bạn có thể dạy cho một ai đó để làm điều đó khá nhanh chóng. Nói cách khác, mặc dù phân loại thiên hà là một nhiệm vụ rất khó khăn cho các máy tính, nó là khá dễ dàng đối với con người. Vì vậy, trong khi đang ngồi trong một quán rượu ở Oxford, Schawinski và đồng thiên văn Chris Lintott mơ lập một trang web nơi mà các tình nguyện viên sẽ phân loại các hình ảnh của các thiên hà. Một vài tháng sau đó, Galaxy Zoo được sinh ra.

Tại website Galaxy Zoo, tình nguyện viên sẽ trải qua một vài phút tập luyện; Ví dụ, học hỏi sự khác biệt giữa một hình xoắn ốc và thiên hà hình elip (Hình 5.2). Sau khi đào tạo này, các tình nguyện viên đã phải vượt qua một phân loại tương đối dễ dàng quiz-đúng 11 của 15 thiên hà có biết phân loại và sau đó các tình nguyện viên sẽ bắt đầu phân loại thực sự của thiên hà chưa biết thông qua một giao diện web đơn giản (Hình 5.3). Việc chuyển đổi từ tình nguyện viên đến nhà thiên văn học sẽ diễn ra trong vòng chưa đầy 10 phút và chỉ cần đi qua các rào cản thấp nhất, một bài kiểm tra đơn giản.

Hình 5.2: Ví dụ về hai loại chính của thiên hà: xoắn ốc và elip. Dự án Galaxy Zoo sử dụng hơn 100.000 tình nguyện viên để loại hơn 900.000 hình ảnh. Nguồn: www.galaxyzoo.org.

Hình 5.2: Ví dụ về hai loại chính của thiên hà: xoắn ốc và elip. Dự án Galaxy Zoo sử dụng hơn 100.000 tình nguyện viên để loại hơn 900.000 hình ảnh. Nguồn: www.galaxyzoo.org .

Hình 5.3: Màn hình đầu vào mà cử tri đã hỏi để phân loại một hình ảnh duy nhất. Nguồn: www.galaxyzoo.org.

Hình 5.3: Màn hình đầu vào mà cử tri đã hỏi để phân loại một hình ảnh duy nhất. Nguồn: www.galaxyzoo.org .

Galaxy Zoo thu hút tình nguyện viên đầu tiên của mình sau khi dự án đã được đặc trưng trong một bài báo, và trong khoảng sáu tháng dự án lớn liên quan đến hơn 100.000 nhà khoa học công dân, những người tham gia vì họ rất thích công việc và họ muốn giúp thiên văn học trước. Cùng với nhau, những 100.000 tình nguyện viên đóng góp tổng cộng hơn 40 triệu phân loại, với đa số các phân loại đến từ một, nhóm nòng cốt tương đối nhỏ của người tham gia (Lintott et al. 2008) .

Các nhà nghiên cứu người có kinh nghiệm tuyển dụng trợ lý nghiên cứu đại học có thể ngay lập tức được hoài nghi về chất lượng dữ liệu. Trong khi sự hoài nghi này là hợp lý, Galaxy Zoo cho thấy rằng khi những đóng góp tình nguyện được làm sạch một cách chính xác, debiased, và tổng hợp, họ có thể tạo ra kết quả chất lượng cao (Lintott et al. 2008) . Một mẹo quan trọng để nhận được đám đông để tạo ra dữ liệu có chất lượng chuyên nghiệp là sự dư thừa; nghĩa là, sau khi các nhiệm vụ tương tự được thực hiện bởi nhiều người khác nhau. Trong Galaxy Zoo, đã có khoảng 40 phân loại mỗi thiên hà; các nhà nghiên cứu sử dụng các trợ lý nghiên cứu đại học không bao giờ có thể đủ khả năng mức độ dư thừa và do đó cần phải được quan tâm nhiều hơn với chất lượng của mỗi phân loại cá nhân. Những tình nguyện viên thiếu trong đào tạo, họ đã làm cho dư thừa.

Ngay cả với nhiều cách phân loại mỗi thiên hà, tuy nhiên, kết hợp các bộ phân loại tình nguyện viên để tạo ra một phân loại thống nhất là khéo léo. Bởi vì những thách thức rất tương tự phát sinh ở hầu hết các dự án tính toán của con người, nó là hữu ích để xem xét ngắn gọn ba bước mà các nhà nghiên cứu Galaxy Zoo sử dụng để sản xuất phân loại sự đồng thuận của họ. Đầu tiên, các nhà nghiên cứu "làm sạch" các dữ liệu bằng cách loại bỏ các phân loại không có thật. Ví dụ, những người liên tục phân loại cùng một thiên hà cái gì đó sẽ xảy ra nếu họ đã cố gắng để thao tác các kết quả đã có tất cả các phân loại của họ bỏ đi. lau tương tự khác này và loại bỏ được khoảng 4% của tất cả các phân loại.

Thứ hai, sau khi làm sạch, các nhà nghiên cứu cần thiết để loại bỏ những thành kiến ​​có hệ thống trong phân loại. Thông qua một loạt các nghiên cứu phát hiện thiên vị nhúng trong ví dụ ban đầu dự án cho, cho thấy một số tình nguyện viên các thiên hà trong đơn sắc thay vì màu các nhà nghiên cứu phát hiện ra nhiều thành kiến có hệ thống, chẳng hạn như một sai số hệ thống phân loại thiên hà xa xoắn ốc như thiên hà hình elip (Bamford et al. 2009) . Điều chỉnh cho những thành kiến ​​có hệ thống là vô cùng quan trọng bởi vì trung bình nhiều đóng góp không loại bỏ sai số hệ thống; nó chỉ loại bỏ sai số ngẫu nhiên.

Cuối cùng, sau khi debiasing, các nhà nghiên cứu cần một phương pháp để kết hợp các phân loại cá nhân để sản xuất một phân loại sự đồng thuận. Cách đơn giản để kết hợp các phân loại cho mỗi thiên hà sẽ được chọn phân loại phổ biến nhất. Tuy nhiên, phương pháp này sẽ cung cấp cho mỗi tình nguyện viên cân bằng, và các nhà nghiên cứu nghi ngờ rằng một số tình nguyện viên đã tốt hơn ở phân loại hơn những người khác. Do đó, các nhà nghiên cứu đã phát triển một quy trình trọng lặp đi lặp lại phức tạp hơn mà cố gắng để tự động phát hiện các phân loại tốt nhất và cung cấp cho họ cân nhiều hơn.

Như vậy, sau ba bước quá trình làm sạch, debiasing, và trọng số-nhóm nghiên cứu Galaxy Zoo đã chuyển đổi 40 triệu phân loại tình nguyện vào một tập hợp thống nhất phân loại hình thái. Khi những phân loại Galaxy Zoo được so sánh với ba lần quy mô nhỏ hơn trước bởi nhà thiên văn học chuyên nghiệp, bao gồm cả việc phân loại bằng Schawinski đã giúp truyền cảm hứng cho Galaxy Zoo, đã có thỏa thuận mạnh mẽ. Do đó, các tình nguyện viên, trong tổng hợp, có thể cung cấp phân loại chất lượng cao và ở một quy mô mà các nhà nghiên cứu không thể phù hợp (Lintott et al. 2008) . Trong thực tế, bằng cách phân loại nhân lực cho một số lượng lớn như vậy của các thiên hà, Schawinski, Lintott, và những người khác có thể cho thấy rằng chỉ có khoảng 80% của các thiên hà theo các hình xoắn ốc dự kiến ​​mô hình màu xanh và elip và đỏ rất nhiều bài báo đã được viết về phát hiện này (Fortson et al. 2011) .

Với nền tảng này, bây giờ chúng ta có thể thấy Galaxy Zoo sau chia-xin-kết hợp công thức, công thức tương tự được sử dụng cho hầu hết các dự án tính toán của con người. Đầu tiên, một vấn đề lớn được chia thành nhiều phần. Trong trường hợp này, vấn đề phân loại một triệu thiên hà được phân chia thành một triệu vấn đề phân loại một thiên hà. Tiếp theo, một hoạt động được áp dụng cho từng đoạn một cách độc lập. Trong trường hợp này, một tình nguyện viên sẽ phân loại mỗi thiên hà là một trong hai hình xoắn ốc hoặc elip. Cuối cùng, kết quả được kết hợp để tạo ra một kết quả đồng thuận. Trong trường hợp này, các bước kết hợp bao gồm việc làm sạch, debiasing, và trọng để sản xuất một phân loại thống nhất cho mỗi thiên hà. Mặc dù hầu hết các dự án sử dụng công thức chung này, mỗi người trong số các bước cần phải tùy chỉnh để các vấn đề cụ thể được giải quyết. Ví dụ, trong dự án tính toán của con người được mô tả dưới đây, công thức tương tự sẽ được theo sau, nhưng áp dụng và kết hợp các bước sẽ được khá khác nhau.

Đối với nhóm Galaxy Zoo, dự án đầu tiên này chỉ là sự khởi đầu. Rất nhanh chóng, họ nhận ra rằng mặc dù họ có thể phân loại gần một triệu thiên hà, quy mô này là không đủ để làm việc với các điều tra bầu trời kỹ thuật số mới hơn, có thể tạo ra hình ảnh của khoảng 10 tỷ thiên hà (Kuminski et al. 2014) . Để xử lý tăng 1.000.000-10000000000-một yếu tố của 10.000 Galaxy Zoo sẽ cần tuyển người tham gia hơn khoảng 10.000 lần. Mặc dù số lượng tình nguyện viên trên Internet là lớn, nó không phải là vô hạn. Do đó, các nhà nghiên cứu nhận ra rằng nếu họ sẽ xử lý một lượng ngày càng cao của dữ liệu, một mới, thậm chí khả năng mở rộng hơn, cách tiếp cận là cần thiết.

Do đó, Manda Banerji làm việc với Kevin Schawinski, Chris Lintott, và các thành viên khác của máy tính giảng dạy theo nhóm bắt đầu Galaxy Zoo để phân loại các thiên hà. Cụ thể hơn, bằng cách sử dụng phân loại con người tạo ra bởi Galaxy Zoo, Banerji et al. (2010) đã xây dựng một mô hình máy học có thể dự đoán được phân loại con người của một thiên hà dựa vào đặc điểm của hình ảnh. Nếu mô hình học máy này có thể tái phân loại con người với độ chính xác cao, sau đó nó có thể được sử dụng bởi các nhà nghiên cứu Galaxy Zoo để phân loại một số chất vô hạn của các thiên hà.

Cốt lõi của phương pháp Banerji và đồng nghiệp thực sự là khá tương tự như kỹ thuật thường được sử dụng trong nghiên cứu xã hội, mặc dù tương tự mà có thể không được rõ ràng ở cái nhìn đầu tiên. Đầu tiên, Banerji và các đồng nghiệp chuyển đổi từng hình ảnh vào một tập hợp các tính năng số đó tóm tắt đó là tài sản. Ví dụ, đối với hình ảnh của các thiên hà có thể có ba đặc điểm: số lượng màu xanh trong hình ảnh, sự khác biệt trong độ sáng của điểm ảnh, và tỷ lệ điểm ảnh không phải da trắng. Việc lựa chọn các tính năng chính xác là một phần quan trọng của vấn đề, và nó thường đòi hỏi chuyên môn bộ môn. Bước đầu tiên này, thường được gọi là tính năng kỹ thuật, kết quả trong một ma trận dữ liệu với một hàng cho mỗi hình ảnh và sau đó ba cột mô tả hình ảnh đó. Với ma trận dữ liệu và đầu ra mong muốn (ví dụ, cho dù hình ảnh đã được phân loại bởi một con người như một thiên hà hình elip), các nhà nghiên cứu ước tính các thông số của một mô hình ví dụ như thống kê, một cái gì đó giống như một hồi quy mà hậu cần dự đoán các phân loại con người dựa vào các tính năng của hình ảnh. Cuối cùng, các nhà nghiên cứu sử dụng các thông số trong mô hình thống kê này để sản xuất phân loại ước tính của các thiên hà mới (Hình 5.4). Để nghĩ về một tương tự xã hội, hãy tưởng tượng rằng bạn đã có thông tin cá nhân về một triệu học sinh, và bạn biết liệu họ tốt nghiệp đại học hay không. Bạn có thể phù hợp với một hồi quy logistic để dữ liệu này, và sau đó bạn có thể sử dụng các thông số mô hình kết quả để dự đoán xem học sinh mới sẽ tốt nghiệp đại học. Trong máy học tập, phương pháp tiếp cận, sử dụng các ví dụ này được dán nhãn để tạo ra một mô hình thống kê thì đó có thể gắn nhãn mới dữ liệu được gọi là giám sát việc học (Hastie, Tibshirani, and Friedman 2009) .

Hình 5.4: Mô tả đơn giản của cách Banerji et al. (2010) đã sử dụng các phân loại Galaxy Zoo để đào tạo một mô hình máy học để làm phân loại thiên hà. Hình ảnh của các thiên hà đã được chuyển đổi trong một ma trận của các tính năng. Trong ví dụ đơn giản này có ba đặc tính (số lượng màu xanh trong hình ảnh, sự khác biệt trong độ sáng của điểm ảnh, và tỷ lệ điểm ảnh không trắng). Sau đó, cho một tập hợp các hình ảnh, các nhãn Galaxy Zoo được sử dụng để đào tạo một mô hình máy học. Cuối cùng, các học máy được sử dụng để ước tính phân loại cho các thiên hà còn lại. Tôi gọi loại này của dự án một dự án tính toán của con người thế hệ thứ hai vì, thay vì phải con người giải quyết một vấn đề, họ có con người xây dựng một tập dữ liệu có thể được sử dụng để đào tạo một máy tính để giải quyết vấn đề. Ưu điểm của phương pháp tiếp cận máy tính hỗ trợ này là nó cho phép bạn xử lý một lượng chất vô hạn của dữ liệu chỉ sử dụng một số lượng hữu hạn của nỗ lực con người.

Hình 5.4: Mô tả đơn giản của cách Banerji et al. (2010) sử dụng các phân loại Galaxy Zoo để đào tạo một mô hình máy học để làm phân loại thiên hà. Hình ảnh của các thiên hà đã được chuyển đổi trong một ma trận của các tính năng. Trong ví dụ đơn giản này có ba đặc tính (số lượng màu xanh trong hình ảnh, sự khác biệt trong độ sáng của điểm ảnh, và tỷ lệ điểm ảnh không trắng). Sau đó, cho một tập hợp các hình ảnh, các nhãn Galaxy Zoo được sử dụng để đào tạo một mô hình máy học. Cuối cùng, các học máy được sử dụng để ước tính phân loại cho các thiên hà còn lại. Tôi gọi loại này của dự án một dự án tính toán của con người thế hệ thứ hai vì, thay vì phải con người giải quyết một vấn đề, họ có con người xây dựng một tập dữ liệu có thể được sử dụng để đào tạo một máy tính để giải quyết vấn đề. Ưu điểm của phương pháp tiếp cận máy tính hỗ trợ này là nó cho phép bạn xử lý một lượng chất vô hạn của dữ liệu chỉ sử dụng một số lượng hữu hạn của nỗ lực con người.

Các tính năng trong Banerji et al. (2010) mô hình học máy là phức tạp hơn so với những đồ chơi của tôi ví dụ, ví dụ, cô đã sử dụng các tính năng như "de Vaucouleurs phù hợp với tỷ lệ trục" -và mô hình của cô không hồi quy logistic, nó là một mạng lưới thần kinh nhân tạo. Sử dụng các tính năng của mình, mô hình của mình, và sự đồng thuận Galaxy Zoo phân loại, cô đã có thể tạo ra trọng lượng trên mỗi tính năng, và sau đó sử dụng các trọng để đưa ra dự đoán về việc phân loại của các thiên hà. Ví dụ, phân tích của bà nhận thấy rằng hình ảnh với thấp "de Vaucouleurs phù hợp với tỷ lệ trục" có nhiều khả năng là thiên hà xoắn ốc. Với những trọng, cô đã có thể dự đoán được phân loại con người của một thiên hà với độ chính xác hợp lý.

Công việc của Banerji et al. (2010) quay Galaxy Zoo vào những gì tôi sẽ gọi một hệ thống tính toán của con người thế hệ thứ hai. Cách tốt nhất để suy nghĩ về những hệ thống thế hệ thứ hai là thay vì có người giải quyết một vấn đề, họ có con người xây dựng một tập dữ liệu có thể được sử dụng để đào tạo một máy tính để giải quyết vấn đề. Số lượng dữ liệu cần thiết để đào tạo các máy tính có thể quá lớn mà nó đòi hỏi một sự hợp tác hàng loạt con người tạo ra. Trong trường hợp của Galaxy Zoo, các mạng thần kinh được sử dụng bởi Banerji et al. (2010) yêu cầu một số lượng rất lớn các ví dụ con người được dán nhãn để xây dựng một mô hình mà đã có thể đáng tin cậy tái tạo các phân loại của con người.

Ưu điểm của phương pháp tiếp cận máy tính hỗ trợ này là nó cho phép bạn xử lý một lượng chất vô hạn của dữ liệu chỉ sử dụng một số lượng hữu hạn của nỗ lực con người. Ví dụ, một nhà nghiên cứu với một triệu thiên hà phân loại con người có thể xây dựng một mô hình dự đoán rằng sau đó có thể được sử dụng để phân loại một tỷ đồng hoặc thậm chí là một nghìn tỷ thiên hà. Nếu có một số lượng rất lớn các thiên hà, sau đó loại này của con người-máy tính lai thực sự là giải pháp duy nhất có thể. khả năng mở rộng vô hạn này không phải là miễn phí, tuy nhiên. Xây dựng mô hình học máy có thể sao chép một cách chính xác các phân loại của con người chính là một vấn đề khó, nhưng may mắn thay đã có những cuốn sách tuyệt vời dành riêng cho chủ đề này (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo cho thấy sự tiến hóa của nhiều dự án tính toán của con người. Đầu tiên, một nhà nghiên cứu cố gắng dự án một mình hoặc với một nhóm nhỏ các trợ lý nghiên cứu (ví dụ, nỗ lực phân loại ban đầu Schawinski của). Nếu phương pháp này cũng không quy mô, các nhà nghiên cứu có thể di chuyển đến một dự án tính toán của con người mà nhiều người góp phần phân loại. Nhưng, đối với một khối lượng dữ liệu nhất định, nỗ lực của con người tinh khiết sẽ không đủ. Vào thời điểm đó, các nhà nghiên cứu cần phải xây dựng hệ thống thế hệ thứ hai, nơi phân loại con người được sử dụng để đào tạo một mô hình máy học mà sau đó có thể được áp dụng cho các khoản hầu như không giới hạn của dữ liệu.