5.2.1 갤럭시 동물원

이 번역은 컴퓨터에 의해 만들어졌습니다. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.2.1 갤럭시 동물원

갤럭시 동물원 백만 은하를 분류하는 많은 비 전문 자원 봉사자의 노력을 결합한다.

갤럭시 동물원, Schawinski이 은하에 관심 2007 년은 상당히 단순화에 케빈 Schawinski, 옥스포드 대학의 천문학에서 대학원생들이 직면 한 문제에서 성장하고, 은하에 의해 분류 할 수 있습니다 자신의 형태 타원형 또는 나선형 및 자신의 색 파란색 또는 빨간색으로. 당시 천문학 자들 사이 통념 나선형 은하는 우리 은하와 같은 색 (나타내는 청소년) 푸른 있다고이었고, 그 타원 은하 (나이를 나타내는) 붉은 색이었다. Schawinski이 종래의 지혜를 의심했다. 그는이 패턴은 일반적으로 사실 일 수도 있지만, 거기에 아마 예외 상당한 수 있었다, 그 의심이 특이한 은하 - 더 적합하지 않은 사람을 많이 공부하여 패턴이-그 과정에 대해 뭔가를 배울 수 예상되는 은하 형성.

따라서, 어떤 Schawinski 종래의 지혜를 전복하기 위해 필요한 것은 형태 학적 분류 은하의 큰 집합이었다; 즉, 나선형 또는 타원형로 분류했다 은하이다. 그러나 문제는, 기존의 알고리즘 분류 방법은 아직 충분 과학 연구에 사용할 수 없었다이었다; 즉 분류 은하 컴퓨터 어려웠던 문제는 그 시간이었다. 따라서, 필요한 있었는지 인간의 분류 은하의 큰 숫자였다. Schawinski는 대학원 학생의 열정이 분류 문제를 착수했다. 일곱, 12 시간 일 마라톤 세션에서 그는 50,000 은하를 분류 할 수 있었다. 50,000 은하가 많은 것처럼 들릴 수 있지만, 그것은 슬로 언 디지털 스카이 서베이에서 촬영되었던 거의 백만 은하의 약 5 %는 사실이다. Schawinski 그가 확장 성 접근 방식이 필요하다는 것을 깨달았다.

다행히,이 분류 은하의 작업이 천문학에서 고급 교육을 필요로하지 않는 것으로 나타났다; 당신은 꽤 빨리 그것을 할 사람을 가르 칠 수 있습니다. 은하를 분류하는 컴퓨터 어려웠다 작업하더라도 즉, 그것은 인간 매우 쉬웠다. 그래서, 옥스포드, Schawinski 동료 천문학 크리스 Lintott에 술집에 앉아있는 동안은 자원 봉사자들이 은하의 이미지를 분류 할 웹 사이트를 꿈. 몇 달 후, 갤럭시 동물원이 탄생했습니다.

갤럭시 동물원 웹 사이트에서 자원 봉사자 교육의 몇 분을받을 것이다 예를 들면, 나선 및 타원 은하 (도 5.2)의 차이를 학습. 이 교육 후, 자원 봉사자 알려진 함께 상대적으로 쉬운 퀴즈 - 제대로 분류 (11) (15)의 은하를 통과했다 분류-하고 자원 봉사자는 간단한 웹 기반 인터페이스 (그림 5.3)을 통해 알 수없는 은하의 실제 분류를 시작합니다. 천문학에 자원 봉사의 전환은 10 분 미만에서 일어날 만 장애물, 간단한 퀴즈의 가장 낮은 통과해야합니다.

그림 5.2 : 나선형과 타원형 : 은하의 2 가지 주요 유형의 예. 갤럭시 동물원 프로젝트는 900,000 이미지보다 더 많은 카테고리에 10 만 명 이상의 자원 봉사자를 사용했다. 출처 : www.galaxyzoo.org .

그림 5.3 : 유권자가 하나의 이미지를 분류했다 입력 화면. 출처 : www.galaxyzoo.org .

프로젝트가 뉴스 기사에 등장, 약 6 개월 만에 프로젝트가 10 만 명 이상의 시민 과학자들이 작업을 즐기며 그들이 미리 천문학 도움 싶었 기 때문에 참여한 사람들을 포함하는 성장 후 갤럭시 동물원은 초기 자원 봉사자을 끌었다. 함께,이 10 만 자원 봉사자들은 참가자의 상대적으로 작은, 핵심 그룹에서 나오는 분류의 대다수, 이상 40,000,000 분류의 총 기부 (Lintott et al. 2008) .

경험 고용 학부 연구 보조원이 연구원은 즉시 데이터 품질에 대한 의심의 여지가있을 수 있습니다. 이 회의는 합리적이지만, 갤럭시 동물원 자원 봉사 기여가 제대로 세척 debiased 및 집계 할 때, 그들은 높은 품질의 결과를 얻을 수 있음을 보여줍니다 (Lintott et al. 2008) . 전문적인 품질의 데이터를 생성하는 군중을 얻기를위한 중요한 트릭은 중복입니다; 즉, 같은 과제는 여러 사람에 의해 수행되는 데. 갤럭시 동물원에서 은하 약 40 분류 있었다; 따라서 중복이 정도의 여유가 결코 수 학부 연구 조교를 사용하여 연구자들은 각 분류의 품질에 더 많은 관심을해야합니다. 자원 봉사자 훈련 부족 무엇, 그들은 중복으로 가입했다.

심지어 은하계에 여러 분류로, 그러나, 자원 봉사 분류의 세트를 결합하는 합의 분류가 까다 롭습니다 생성한다. 매우 비슷한 문제는 대부분의 인간 계산 프로젝트에서 발생하기 때문에, 간단히 갤럭시 동물원 연구자들이 합의 분류를 생성하는 데 사용되는 세 가지 단계를 검토하는 것이 도움이된다. 우선, 연구자들은 가짜 분류를 제거하여 데이터를 "세정". 예를 들어, 반복해서 그들이 조작하려고했던 일이 일어날 것 같은 은하-뭔가 분류 사람들은 모두 자신의 분류가 폐기 결과는-했다. 이것과 다른 유사한 청소 모든 분류의 약 4 %를 제거했다.

둘째, 청소 후, 연구진은 분류에서 체계적인 편견을 제거 할 필요가 있었다. 원래 프로젝트 예에 내장 된 바이어스 탐지 연구, 대신 흑백 은하 일부 자원 봉사자를 보여주는 일련의 색상 연구원은 타원 은하 멀리 나선형 은하를 분류하는 체계적인 바이어스 여러 체계적인 편견, 발견 (Bamford et al. 2009) . 많은 기여를 평균하여 체계적인 편견을 제거하지 않기 때문에 이러한 체계적인 편견에 대한 조정은 매우 중요하다; 그것은 단지 무작위 오류를 제거합니다.

마지막으로, debiasing 후, 연구진은 합의 분류를 생성하기 위해 각각의 분류를 결합하는 방법을 필요로했다. 각 갤럭시 분류를 결합하는 간단한 방법은 가장 일반적인 분류를 선택하는 것이다. 그러나이 방법은 각 자원 봉사 동일한 가중치를 줄 것이며, 연구자들은 일부 자원 봉사자가 다른 사람보다 분류에 더 있다고 의심. 따라서 연구진은 자동으로 최적의 분류를 감지하고 그들에게 더 무게를 제공하기 위해 시도하는 더 복잡한 반복 가중 절차를 개발했다.

따라서, 세 단계 프로세스 청소, debiasing 및 가중치-갤럭시 동물원 연구팀 후 합의 형태 학적 분류의 세트로 4000 만 자원 봉사자 분류를 전환했다. 이 은하 동물원 분류가 갤럭시 동물원을 자극하는 데 도움이 Schawinski에 의한 분류를 포함하여 전문적인 천문학 자에 의해 세 이전 작은 규모의 시도와 비교했을 때, 강력한 합의가 있었다. 따라서, 지원자는 골재의 높은 품질의 분류를 제공 할 수 있었다 연구자가 일치하지 수있는 규모 (Lintott et al. 2008) . 사실, 은하 등 많은 수의 인간의 분류를함으로써, Schawinski는 Lintott, 그리고 다른 은하의 약 80 %에 대해 기록 된 예상 패턴 파란색 나선과 빨간색 타원 은하 및 다수의 논문을 따를 것을 보여줄 수 있었다 이 발견 (Fortson et al. 2011) .

이러한 배경을 감안할 때, 우리는 지금 갤럭시 동물원은 다음 방법을 볼 수있는 분할 적용-결합 요리법, 대부분의 인간 계산 프로젝트에 사용되는 것과 동일한 조리법을. 첫째, 큰 문제는 청크로 분할됩니다. 이 경우, 억 은하의 분류 문제가 하나 은하의 분류 만 문제로 분할된다. 다음에, 동작은 독립적으로 각각의 청크에 적용된다. 이 경우, 자원 봉사 나선형 또는 타원형 중 각 은하를 분류합니다. 마지막으로, 결과가 일치 된 결과를 생성하도록 결합된다. 이 경우, 상기 결합 단계는 각각 갤럭시 합의 분류를 생성하기 위해 세정, debiasing 및 가중을 포함했다. 대부분의 프로젝트이 일반적인 제조법을 사용하더라도, 각 단계는 특정 문제가 해결되기 정의 할 필요가있다. 예를 들어, 후술하는 인간 연산 프로젝트에서, 동일한 레시피 하였다되지만, 적용 및 결합 단계는 전혀 다른 것이다.

갤럭시 동물원 팀은이 첫 번째 프로젝트는 시작에 불과했다. 매우 신속하게 비록 그들이 백만 은하에 가까운 분류 할 수 있었다 것을 깨달았다,이 규모는 약 100 억 은하의 이미지를 생산할 수있는 새로운 디지털 하늘 설문 조사, 작업하는 것만으로는 충분하지 않습니다 (Kuminski et al. 2014) . 1000000 10에서 증가를 처리하기 위해 억 - 10,000 갤럭시 동물원의 요인은 약 10,000 배 더 많은 참가자를 모집해야합니다. 인터넷 지원자의 수가 많은 경우에도, 그것은 무한이 아니다. 따라서 연구진은 실현 그들이 새로운, 더 많은 확장 성, 접근 방식이 필요했던 데이터의 적 성장 금액을 처리하려고합니다.

따라서 만다 Banerji는 일하는 케빈 Schawinski, 크리스 Lintott 및 갤럭시 동물원 팀부터 교육 컴퓨터의 다른 회원들과 함께하는 은하를 분류합니다. 구체적으로는, 은하 동물원에 의해 생성 된 인간 분류하여 Banerji et al. (2010) 이미지의 특성에 기초 은하 인간 분류를 예측할 수있는 기계 학습 모델을 만들었다. 이러한 기계 학습 모델은 고정밀 인간 분류를 재현 할 수 있다면, 그때 은하 본질적으로 무한한 수의 분류 은하 동물원 연구자에 의해 사용될 수있다.

그 유사성은 첫눈에 명확하지 않을 수도 있지만 Banerji과 동료의 접근 방식의 핵심은, 실제로 일반적으로 사회 연구에 사용 된 기술에 매우 유사하다. 첫째, Banerji와 동료는 속성의 요약 숫자 기능의 집합으로 각각의 이미지를 변환. 이미지의 청색의 양을, 화소의 휘도 분산, 비 - 화이트 픽셀의 비율은 예를 들어, 은하 이미지 세 가지 기능이있을 수있다. 적절한 기능의 선택은 문제의 중요한 부분이며, 일반적으로 주제 분야의 전문 지식을 필요로한다. 공통 기능 엔지니어링이라는 첫 번째 단계는, 이미지 당 하나의 로우 및 그 화상을 설명하는 다음 세 개의 열 데이터 매트릭스 초래한다. 로지스틱 회귀 - 기반 인간 구분 예측 등의 데이터 매트릭스와 원하는 출력 (예, 화상이 타원 은하로서 인간 분류되었는지 여부), 연구자가 통계 모델을위한 예시의 파라미터를 추정하고, 어떤 주어진 이미지의 기능에. 마지막으로, 연구원은 새로운 은하의 예상 분류 (그림 5.4)를 생산하는이 통계 모델의 매개 변수를 사용합니다. 사회적 아날로그를 생각하려면 만 학생들에 대한 인구 통계 학적 정보를 한 것으로 상상하고는 대학 여부를 졸업 여부를 알고있다. 이 데이터에 로지스틱 회귀에 맞게 수 있으며, 당신은 새로운 학생들이 대학을 졸업 예정 여부를 예측하는 결과 모델 매개 변수를 사용할 수 있습니다. 기계 학습에서,이 방법-사용하여 라벨이 예는 다음 새 레이블을 할 수있는 통계 모델 생성 데이터를-되는 학습 감독이라고 (Hastie, Tibshirani, and Friedman 2009) .

그림 5.4 : 방법 Banerji 등의 단순화 된 설명입니다. (2010) 은하 분류를 할 수있는 기계 학습 모델을 양성하는 갤럭시 동물원 분류를 사용했다. 은하의 이미지는 기능의 매트릭스에 변환되었다. 이 간단한 예에서는 세 가지 기능 (화상의 청색의 양을, 화소의 휘도 분산, 비 - 백 화소의 비율)이있다. 그리고, 이미지의 서브 세트 갤럭시 동물원 라벨 기계 학습 모델을 훈련하기 위해 사용된다. 마지막으로, 기계 학습 나머지 은하 분류를 추정하는데 사용된다. I 프로젝트 이런 종류의 전화 갖는 인간이 문제를 해결하는 것이 아니라, 이들이 인간이 문제를 해결하기 위해 컴퓨터를 훈련하는데 사용될 수있는 데이터 세트를 구축이 때문에 2 세대 인간 계산 프로젝트. 이 컴퓨터 - 보조 접근법의 이점은 인간의 노력의 유한 한 양의 데이터를 이용하여 본질적으로 무한한 양을 처리 할 수 있다는 것이다.

그림 5.4 : 방법의 단순화 된 설명 Banerji et al. (2010) 은하 분류를 할 수있는 기계 학습 모델을 양성하는 갤럭시 동물원 분류를 사용했다. 은하의 이미지는 기능의 매트릭스에 변환되었다. 이 간단한 예에서는 세 가지 기능 (화상의 청색의 양을, 화소의 휘도 분산, 비 - 백 화소의 비율)이있다. 그리고, 이미지의 서브 세트 갤럭시 동물원 라벨 기계 학습 모델을 훈련하기 위해 사용된다. 마지막으로, 기계 학습 나머지 은하 분류를 추정하는데 사용된다. I 프로젝트 이런 종류의 전화 갖는 인간이 문제를 해결하는 것이 아니라, 이들이 인간이 문제를 해결하기 위해 컴퓨터를 훈련하는데 사용될 수있는 데이터 세트를 구축이 때문에 2 세대 인간 계산 프로젝트. 이 컴퓨터 - 보조 접근법의 이점은 인간의 노력의 유한 한 양의 데이터를 이용하여 본질적으로 무한한 양을 처리 할 수 있다는 것이다.

의 기능 Banerji et al. (2010) 기계 학습 모델은 예 - 예를 들어, 그녀는 같은 기능을 사용하여 내 장난감에 비해 더 복잡했다 "드 Vaucouleurs는 축 비율에 맞게"- 그리고 그녀의 모델 로지스틱 회귀하지 않았다, 그것은 인공 신경망이었다. 그녀의 기능, 그녀의 모델과 일치 갤럭시 동물원 분류를 사용하여, 그녀는 각 기능에 무게를 만든 다음 은하의 분류에 대한 예측을 이러한 가중치를 사용할 수 있었다. 예를 들어, 그녀의 분석은 "Vaucouleurs는 축 비율에 맞게 드"저와 이미지가 나선형 은하 될 가능성 것을 발견했다. 이 무게를 감안할 때, 그녀는 합리적인 정확도로 은하의 인간의 분류를 예측 할 수 있었다.

의 작업 Banerji et al. (2010) 나는 2 세대 인간의 계산 시스템을 호출 될지에 갤럭시 동물원을 돌렸다. 이러한 2 세대 시스템에 대해 생각하는 최선의 방법은 인간이 갖는 문제를 해결하는 것이 아니라, 이들이 인간이 문제를 해결하기 위해 컴퓨터를 훈련하는데 사용될 수있는 데이터 세트를 구축해야한다는 것이다. 컴퓨터를 훈련하는데 필요한 데이터 량은 생성하는 인간 질량 협력을 필요 정도로 클 수있다. 갤럭시 동물원에서 사용되는 신경망의 경우 Banerji et al. (2010) 을 확실하게 인간 분류를 재현 할 수 있었다 모델을 구축하기 위해 인간 표지 예 매우 많은 것을 요구했다.

이 컴퓨터 - 보조 접근법의 이점은 인간의 노력의 유한 한 양의 데이터를 이용하여 본질적으로 무한한 양을 처리 할 수 있다는 것이다. 예를 들어, 인간의 장비 만 은하 연구원은 억 또는 조 은하를 분류하는데 사용될 수있는 예측 모델을 구축 할 수있다. 은하 엄청난 숫자가 있다면, 인간 - 컴퓨터 하이브리드 이러한 종류 정말로 유일하게 가능한 솔루션이다. 이 무한한 확장 성을하지만, 무료로하지 않습니다. 자체가 어려운 문제입니다 제대로 인간의 분류를 재생할 수있는 기계 학습 모델을 구축,하지만 다행히이 주제에 전념 우수한 책을 이미가 (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

갤럭시 동물원은 사람의 계산 프로젝트의 진화를 보여줍니다. 먼저, 연구원은 혼자 또는 연구 보조원의 작은 팀 (예를 들어, Schawinski의 초기 분류 노력)으로 프로젝트를 시도합니다. 이 방법이 잘 조절되지 않는 경우, 연구자들은 많은 사람들이 분류 기여 인간 연산 프로젝트에 이동할 수있다. 그러나, 데이터의 특정 볼륨, 순수한 인간의 노력이 충분하지 않을 것입니다. 그 시점에서, 연구자들은 인간 분류 후 데이터의 무제한 양에 적용 할 수있는 기계 학습 모델을 훈련하기 위해 사용되는 제 2 세대 시스템을 구축 할 필요가있다.