5.2.1 갤럭시 동물원

은하 동물원은 수많은 비전문 자원 봉사자들의 노력을 결합하여 백만 개의 은하를 분류했습니다.

Galaxy Zoo는 2007 년 Oxford 대학의 천문학과 대학원생 인 Kevin Schawinski가 직면 한 문제로 인해 생겨났습니다. 간단하게 단순화 한 Schawinski는 은하에 관심이 있었고 은하계는 타원형 또는 나선형으로 분류 할 수있었습니다. 색상은 파란색 또는 빨간색으로 표시됩니다. 당시 천문학 자들 사이의 일반적인 지혜는 우리 은하계와 마찬가지로 나선 은하가 푸른 색 (청년을 나타냄)이었고 타원 은하는 빨갛다 (노후를 나타냄)라는 것이었다. Schawinski는이 평범한 지혜를 의심했다. 그는이 패턴이 일반적으로 사실일지도 모르는 반면에, 아마도 예외가 상당히 많았을 것으로 예상했으며, 예상하지 못한 은하를 많이 연구함으로써 그 과정을 통해 뭔가를 배울 수 있다고 생각했다. 은하가 형성되었다.

따라서, Schawinski가 전통적인 지혜를 뒤집기 위해 필요한 것은 형상 학적으로 분류 된 은하의 큰 집합이었습니다. 즉, 나선형 또는 타원형으로 분류 된 은하계. 그러나 문제는 분류를위한 기존의 알고리즘 방법이 아직 과학 연구에 사용하기에 충분하지 않다는 것입니다. 즉, 은하를 분류하는 것은 당시 컴퓨터에서 어려웠던 문제였습니다. 그러므로 필요한 것은 인간으로 분류 된 수많은 은하계가 필요했습니다. Schawinski는 대학원 학생들의 열정으로이 분류 문제에 착수했습니다. 12 시간짜리 7 일간의 마라톤 세션에서 그는 5 만개의 은하를 분류 할 수있었습니다. 5 만개의 은하가 많이 들릴지 모르지만 실제로는 Sloan Digital Sky Survey에서 촬영 된 거의 백만 개의 은하 중 단지 약 5 %에 ​​불과합니다. Schawinski는 더 확장 성있는 접근이 필요하다는 것을 깨달았습니다.

다행히,이 분류 은하의 작업이 천문학에서 고급 교육을 필요로하지 않는 것으로 나타났다; 당신은 꽤 빨리 그것을 할 사람을 가르 칠 수 있습니다. 은하를 분류하는 컴퓨터 어려웠다 작업하더라도 즉, 그것은 인간 매우 쉬웠다. 그래서, 옥스포드, Schawinski 동료 천문학 크리스 Lintott에 술집에 앉아있는 동안은 자원 봉사자들이 은하의 이미지를 분류 할 웹 사이트를 꿈. 몇 달 후, 갤럭시 동물원이 탄생했습니다.

Galaxy Zoo 웹 사이트에서 자원 봉사자는 몇 분 정도 훈련을 받게됩니다. 예를 들어, 나선형과 타원형 은하계의 차이점을 배울 수있다 (그림 5.2). 이 훈련 후에, 각 자원 봉사자는 비교적 쉽게 퀴즈를 통과해야만했습니다 - 정확하게 분류 된 15 개의 은하 중 11 개를 정확하게 분류하면 간단한 웹 기반 인터페이스 (그림 5.3)를 통해 알려지지 않은 은하를 실제 분류 할 수 있습니다. 자원 봉사자에서 천문학 자로의 전환은 10 분 이내에 일어나고 가장 간단한 장애물 인 단순한 퀴즈를 통과해야합니다.

그림 5.2 : 은하의 두 가지 주요 유형의 예 : 나선형 및 타원형. Galaxy Zoo 프로젝트에서는 100,000 명 이상의 자원 봉사자가 900,000 개가 넘는 이미지를 분류했습니다. http://www.GalaxyZoo.org 및 Sloan Digital Sky Survey의 허가를 받아 재생성되었습니다.

그림 5.2 : 은하의 두 가지 주요 유형의 예 : 나선형 및 타원형. Galaxy Zoo 프로젝트에서는 100,000 명 이상의 자원 봉사자가 900,000 개가 넘는 이미지를 분류했습니다. http://www.GalaxyZoo.orgSloan Digital Sky Survey의 허가를 받아 재생성되었습니다.

그림 5.3 : 지원자가 단일 이미지를 분류하도록 요청 된 입력 화면. Sloan Digital Sky Survey의 이미지를 기반으로 Chris Lintott의 허락을 받아 재현되었습니다.

그림 5.3 : 지원자가 단일 이미지를 분류하도록 요청 된 입력 화면. Sloan Digital Sky Survey 의 이미지를 기반으로 Chris Lintott의 허락을 받아 재현되었습니다.

Galaxy Zoo는이 프로젝트가 뉴스 기사에 소개 된 후 초기 자원 봉사자들을 끌어 들였고, 약 6 개월 만에 프로젝트에 참가한 사람들은 10 만 명 이상의 시민 과학자들, 그들이 천문학을 전진시키는 데 도움이되기 때문에 참여한 사람들이 참여하게되었습니다. 함께,이 10 만 명의 자원 봉사자는 총 4 천만 개 이상의 분류에 기여했으며, 분류의 대다수는 상대적으로 작은 핵심 그룹 참가자들로부터 나왔습니다 (Lintott et al. 2008) .

학부 연구 조력자를 고용 한 경험이있는 연구원은 데이터 품질에 대해 회의적 일 수 있습니다. 이러한 회의론이 합리적이지만, Galaxy Zoo는 자원 봉사자 기부금이 올바르게 청소되고, 훼손되고 집계 될 때 높은 결과를 산출 할 수 있음을 보여줍니다 (Lintott et al. 2008) . 군중에게 전문적인 품질의 데이터를 제공하는 중요한 트릭은 중복성입니다 . 즉 여러 다른 사람들이 동일한 작업을 수행하는 것입니다. 갤럭시 동물원에는 은하 당 약 40 개의 분류가있었습니다. 학부 연구 보조원을 사용하는 연구원은이 수준의 중복성을 제공 할 수 없으므로 각 개별 분류의 품질에 훨씬 더 관심을 기울일 필요가 있습니다. 자원 봉사자들이 훈련에서 부족한 것은 중복을 보완했습니다.

그러나 은하계 별 분류가 여러 개인 경우에도 자원 봉사자 분류를 조합하여 합의 분류를 만드는 것은 까다 롭습니다. 대부분의 인간 계산 프로젝트에서 매우 유사한 문제가 발생하기 때문에 Galaxy Zoo 연구원이 합의 분류를 산출하는 데 사용한 세 가지 단계를 간단히 검토하면 도움이됩니다. 첫째, 가짜 분류를 제거하여 데이터를 "정리"했습니다. 예를 들어, 같은 은하계를 반복적으로 분류 한 사람들 - 결과를 조작하려는 경우 일어날 수있는 일 - 모든 분류가 폐기되었습니다. 이와 유사한 청소로 모든 분류의 약 4 %가 제거되었습니다.

둘째, 청소 후 연구자들은 분류에서 체계적인 편견을 제거해야했습니다. 예를 들어 일부 지원자에게 색 대신 단색의 은하계를 보여주는 등 원래 프로젝트에 포함 된 일련의 바이어스 탐지 연구를 통해 연구원은 멀리 떨어진 나선 은하를 타원 은하로 분류하는 체계적 편향과 같은 몇 가지 체계적인 편향을 발견했습니다 (Bamford et al. 2009) . 이러한 체계적인 편향을 조정하는 것은 중복성이 체계적인 편견을 자동으로 제거하지 않기 때문에 매우 중요합니다. 무작위 오류를 제거하는 데 도움이됩니다.

마지막으로, debiasing 후, 연구자는 컨센서스 분류를 생산하기 위해 개별 분류를 결합하는 방법이 필요했습니다. 각 은하에 대한 분류를 결합하는 가장 간단한 방법은 가장 일반적인 분류를 선택하는 것이 었습니다. 그러나이 접근법은 각 자원 봉사자에게 동등한 무게를 주었을 것이며 연구원은 일부 자원 봉사자가 다른 자원자보다 분류가 더 우수하다고 의심했습니다. 따라서 연구자들은 최상의 분류기를 찾아 내고 더 많은 무게를주기 위해보다 복잡한 반복 가중치 절차를 개발했습니다.

Galaxy Zoo 연구팀은 3 단계 프로세스 (청소, 디버깅, 가중치 부여)를 거친 후 4 천만 명의 자원 봉사자 분류를 일치 된 형태 분류로 변환했습니다. 이 Galaxy Zoo 분류가 Galaxy Zoo에 영향을 준 Schawinski의 분류를 포함하여 전문 천문학 자에 의한 이전 세 번의 소규모 시도와 비교되었을 때 강력한 동의가있었습니다. 따라서 자원 봉사자들은 종합적으로 고품질 분류를 제공 할 수 있었고 연구자가 일치시킬 수없는 규모로 제공 할 수있었습니다 (Lintott et al. 2008) . 사실, 많은 수의 은하에 대한 인간 분류를함으로써, Schawinski, Lintott 등은 예상되는 패턴 인 푸른 나선과 붉은 타원형을 따라 약 80 %의 은하 만을 보여줄 수있었습니다. 이 발견 (Fortson et al. 2011) .

이 배경을 감안할 때 이제 Galaxy Zoo가 대부분의 인간 계산 프로젝트에 사용되는 것과 동일한 분할 적용 적용법을 따르는 지 확인할 수 있습니다. 첫째, 큰 문제는 청크로 나뉩 니다. 이 경우 백만 개의 은하를 분류하는 문제는 하나의 은하를 분류하는 백만 가지 문제로 나뉘어졌습니다. 다음으로, 동작은 각 청크에 독립적으로 적용 됩니다. 이 경우 자원 봉사자는 각 은하를 나선형 또는 타원형으로 분류했습니다. 마지막으로 결과는 합쳐져 합의 결과를 산출합니다. 이 경우 결합 단계에는 각 은하에 대한 합의 분류를 생성하기 위해 세척, 디 바이아 싱 및 가중치가 포함됩니다. 대부분의 프로젝트가이 일반 레시피를 사용하더라도 각 단계는 해결해야 할 특정 문제에 맞게 사용자 정의해야합니다. 예를 들어 아래에 설명 된 인간 계산 프로젝트에서는 동일한 제조법이 적용되지만 적용 및 결합 단계는 매우 다릅니다.

Galaxy Zoo 팀에게 첫 번째 프로젝트는 시작에 불과했습니다. 매우 빠르게 그들은 백만 개의 은하에 가까운 분류를 할 수 있었지만,이 규모는 새로운 디지털 하늘 조사에서 작동하기에 충분하지 않다는 것을 깨달았습니다. 이것은 약 100 억 개의 은하계를 생성 할 수 있습니다 (Kuminski et al. 2014) . 1 백만에서 100 억으로 증가하는 것을 처리하기 위해 10,000 갤럭시 동물원은 대략 10,000 배 더 많은 참가자를 모집해야합니다. 인터넷 자원 봉사자의 수가 많지만 무한하지 않습니다. 따라서 연구원들은 점점 더 많은 양의 데이터를 처리하려는 경우 새롭고 확장 성있는 접근 방식이 필요하다는 것을 깨달았습니다.

따라서 Schawinski, Lintott 및 Galaxy Zoo 팀 (2010) 의 다른 구성원과 협력중인 Manda Banerji는 은하를 분류하기 위해 컴퓨터를 가르치기 시작했습니다. 더 구체적으로, 은하 동물원이 만든 인간 분류를 사용하여, Banerji는 이미지의 특성을 기반으로 인간의 은하 분류를 예측할 수있는 기계 학습 모델을 구축했습니다. 이 모델이 인간의 분류를 높은 정확도로 재현 할 수 있다면 Galaxy Zoo 연구원은 본질적으로 무한한 수의 은하를 분류 할 수 있습니다.

Banerji와 동료의 접근법의 핵심은 실제로 사회 연구에서 일반적으로 사용되는 기술과 매우 유사하지만, 그 유사성은 언뜻보기에는 분명하지 않을 수 있습니다. 첫째, Banerji와 동료들은 각 이미지를 그 속성을 요약 한 일련의 숫자 특징 으로 변환했습니다. 예를 들어, 은하의 이미지에는 이미지의 파란색 양, 픽셀의 밝기의 분산 및 흰색이 아닌 픽셀의 비율이라는 세 가지 기능이있을 수 있습니다. 올바른 기능을 선택하는 것은 문제의 중요한 부분이며 일반적으로 주제 영역 전문 지식이 필요합니다. 일반적으로 피쳐 엔지니어링 ( feature engineering )이라고하는이 첫 번째 단계는 이미지 당 하나의 행과 그 이미지를 설명하는 세 개의 열이있는 데이터 행렬을 생성합니다. 데이터 매트릭스와 원하는 출력 (예 : 이미지가 인간에 의해 타원 은하로 분류되었는지 여부)이 주어지면 연구원은 특징을 기반으로 인간 분류를 예측하는 통계 또는 기계 학습 모델 (예 : 로지스틱 회귀)을 만듭니다 이미지의 마지막으로, 연구원은 새로운 은하에 대한 추정 된 분류를 산출하기 위해이 통계 모델의 매개 변수를 사용한다 (그림 5.4). 기계 학습에서이 방법은 레이블이 지정된 예제를 사용하여 새 데이터에 레이블을 붙일 수있는 모델을 만드는 것입니다.이를 감독 학습 이라고합니다.

그림 5.4 : Banerji et al. (2010)은 은하계 분류를 수행하기 위해 기계 학습 모델을 훈련하기 위해 Galaxy Zoo 분류를 사용했습니다. 은하의 이미지는 특징 매트릭스로 변환되었습니다. 이 단순화 된 예제에는 세 가지 기능 (이미지의 파란색 양, 픽셀의 밝기의 분산 및 비백 백 픽셀의 비율)이 있습니다. 그런 다음 이미지의 하위 집합에 대해 Galaxy Zoo 레이블을 사용하여 기계 학습 모델을 학습합니다. 마지막으로, 기계 학습은 나머지 은하계에 대한 분류를 추정하는 데 사용됩니다. 인간이 문제를 푸는 대신, 문제를 해결하기 위해 컴퓨터를 훈련시키는 데 사용할 수있는 데이터 세트를 인간이 구축하기 때문에 이것을 컴퓨터 지원 인간 계산 프로젝트라고 부릅니다. 이 컴퓨터 보조 인간 계산 시스템의 장점은 제한된 양의 인간 노력만으로 본질적으로 무한한 양의 데이터를 처리 할 수 ​​있다는 것입니다. Sloan Digital Sky Survey의 허가를 받아 재현 한 은하의 이미지.

그림 5.4 : Banerji et al. (2010) 은 은하계 분류를 수행하기 위해 기계 학습 모델을 훈련하기 위해 Galaxy Zoo 분류를 사용했습니다. 은하의 이미지는 특징 매트릭스로 변환되었습니다. 이 단순화 된 예제에는 세 가지 기능 (이미지의 파란색 양, 픽셀의 밝기의 분산 및 비백 백 픽셀의 비율)이 있습니다. 그런 다음 이미지의 하위 집합에 대해 Galaxy Zoo 레이블을 사용하여 기계 학습 모델을 학습합니다. 마지막으로, 기계 학습은 나머지 은하계에 대한 분류를 추정하는 데 사용됩니다. 인간이 문제를 푸는 대신, 문제를 해결하기 위해 컴퓨터를 훈련시키는 데 사용할 수있는 데이터 세트를 인간이 구축하기 때문에 이것을 컴퓨터 지원 인간 계산 프로젝트라고 부릅니다. 이 컴퓨터 보조 인간 계산 시스템의 장점은 제한된 양의 인간 노력만으로 본질적으로 무한한 양의 데이터를 처리 할 수 ​​있다는 것입니다. Sloan Digital Sky Survey의 허가를 받아 재현 한 은하의 이미지.

Banerji 및 동료의 기계 학습 모델의 기능은 장난감 예에있는 것보다 더 복잡했습니다. 예를 들어, "축 방향 비에 맞춘다"와 같은 모델을 사용했고, 모델은 로지스틱 회귀가 아니며 인공 신경망이었습니다. 그녀의 특징, 모델 및 공감대 Galaxy Zoo 분류를 사용하여 각 기능에 대한 가중치를 작성한 다음이 가중치를 사용하여 은하계 분류에 대한 예측을 할 수있었습니다. 예를 들어, 그녀의 분석에 따르면 "de Vaucouleurs fit axial ratio"가 낮은 이미지는 나선 은하가 될 가능성이 더 큽니다. 이 무게를 감안할 때, 그녀는 합리적인 정확성으로 은하의 인간 분류를 예측할 수있었습니다.

Banerji와 동료 연구원은 Galaxy Zoo를 내가 컴퓨터 보조 인간 계산 시스템 이라고 부르는 것으로 바꿨 습니다 . 이러한 하이브리드 시스템에 대해 생각하는 가장 좋은 방법은 인간이 문제를 해결하는 대신 인간이 컴퓨터를 교육하여 문제를 해결할 수있는 데이터 세트를 작성하는 것입니다. 때로는 문제를 해결하기 위해 컴퓨터를 훈련 할 때 많은 예제가 필요할 수 있으며 충분한 수의 예제를 작성하는 유일한 방법은 대량 공동 작업입니다. 이 컴퓨터 지원 방식의 장점은 한정된 양의 인간 노력을 사용하여 본질적으로 무한한 양의 데이터를 처리 할 수 ​​있다는 것입니다. 예를 들어 백만 개의 인간 분류 은하를 가진 연구원은 십억 개 또는 심지어 1 조 개 은하를 분류하는 데 사용할 수있는 예측 모델을 만들 수 있습니다. 엄청난 수의 은하가 있다면, 인간 - 컴퓨터 혼성의 이런 종류의 것이 실제로 가능한 유일한 해결책입니다. 그러나이 무한 확장 성은 무료가 아닙니다. 인간 분류를 올바르게 재현 할 수있는 기계 학습 모델을 구축하는 것은 그 자체로 어려운 문제이지만, 다행스럽게도 이미이 주제에 대한 훌륭한 책이 이미 있습니다 (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo는 인간의 계산 프로젝트가 얼마나 많은지를 잘 보여줍니다. 첫째, 연구원은 스스로 또는 작은 연구 조수 팀 (예 : Schawinski의 초기 분류 작업)으로 프로젝트를 시도합니다. 이 방법이 잘 확장되지 않으면 연구원은 많은 참가자가있는 인간의 계산 프로젝트로 이동할 수 있습니다. 그러나 특정 양의 데이터에 대해서는 순수한 인간 노력으로는 충분하지 않습니다. 이 시점에서 연구원은 인간 분류를 사용하여 사실상 무제한의 데이터에 적용 할 수있는 기계 학습 모델을 학습하는 데 사용되는 컴퓨터 지원 인간 계산 시스템을 구축해야합니다.