5.2.1ギャラクシー動物園

この翻訳は、コンピュータによって作成されました。 ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.2.1ギャラクシー動物園

銀河動物園は、百万の銀河を分類する多くの非専門家ボランティアの努力を兼ね備えています。

銀河動物園はケビンSchawinski、かなりの簡素化2007年にオックスフォード大学で天文学における大学院生が直面する問題から発展した、Schawinskiは銀河に興味を持っていた、と銀河はそれらの形態、楕円形またはによって分類することができるスパイラルとその色、青や赤によります。当時、天文学者の間で従来の知恵は、渦巻銀河は、私たちの天の川のように、（若者を示す）色に青だったと楕円銀河が（老後を示す）色に赤だったということでした。 Schawinskiは、この常識を疑いました。彼はこれらの珍しい銀河予想パターン-彼はそれを通してプロセスについて何かを学ぶことができるが合わなかったものの多くを研究することによって、このパターンは、一般的に真実であるかもしれないが、例外のかなりの数は、おそらくあったことを疑われ、その銀河が形成されました。

したがって、どのようなSchawinskiは、従来の常識を覆すために必要なことは、形態学的に分類された銀河の大規模なセットがありました。すなわち、螺旋または楕円形のいずれかとして分類された銀河です。問題は、しかし、分類のための既存のアルゴリズムの方法はまだ十分な科学的研究のために使用することがなかったということでした。言い換えれば、分類銀河は、その時点で、コンピュータ用のハードだった問題でした。したがって、必要とされたものを人間の分類銀河が多数ありました。 Schawinskiは、大学院生の熱意をもって、この分類問題に着手しました。 7、12時間の日のマラソンセッションでは、彼は50,000銀河を分類することができました。 50,000銀河がたくさんのように聞こえるかもしれないが、それは実際にはスローン・デジタル・スカイサーベイで撮影されていたほぼ百万銀河の約5％のみです。 Schawinskiは、彼はより多くのスケーラブルなアプローチが必要であることに気づきました。

幸いなことに、それは銀河を分類するタスクは天文学で高度な訓練を必要としないことが判明します。あなたはかなり迅速にそれを行うために誰かを教えることができます。分類銀河はコンピュータのために一生懸命だったタスクであっても、言い換えれば、それは人間のための非常に簡単でした。だから、オックスフォード、Schawinskiと仲間の天文学者クリスLintottでパブに座っている間は、ボランティアが銀河の画像を分類するウェブサイトを夢見ていました。数ヵ月後、銀河動物園が誕生しました。

銀河動物園のウェブサイトでは、ボランティアが研修の数分間を受けるだろう。例えば、スパイラルと楕円銀河（図5.2）との差を学習します。このトレーニングの後、ボランティアが知られていると比較的容易クイズ-正しく分類11 15の銀河に合格しなければならなかったの分類-、その後ボランティアは、単純なWebベースのインターフェイス（図5.3）を介して、未知の銀河の本当の分類を始めるだろう。天文学者へのボランティアからの移行は、10分未満で行われ、唯一のハードル、簡単なクイズの最低渡す必要だろう。

図5.2：スパイラルと楕円：銀河の2つの主要なタイプの例。銀河動物園プロジェクトは、カテゴリに10万人以上のボランティア900,000人以上の画像を使用していました。出典： www.galaxyzoo.org 。

図5.3：有権者は、単一の画像を分類するように求めていた入力画面。出典： www.galaxyzoo.org 。

プロジェクトがニュース記事で紹介された後銀河動物園は、その初期のボランティアを集め、約6ヶ月でプロジェクトが10万人以上の市民科学者、彼らは作業を楽しんで、彼らは事前天文学を助けたいと思ったので参加した人々が関与して成長しました。一緒に、これらの10万ボランティアが分類の大部分は、参加者の比較的小さい、コアグループから来ると、4000万人以上の分類の合計を寄付(Lintott et al. 2008)

経験学部研究助手を雇っを持っている研究者は、すぐにデータの品質については懐疑的であるかもしれません。この懐疑論が妥当であるが、銀河動物園は、ボランティアの貢献が正しく、洗浄デバイアス、と集計されたとき、彼らは高品質の結果を生成することができることを示している(Lintott et al. 2008)プロ品質のデータを作成するために、群衆を取得するための重要なトリックは冗長です。つまり、同じタスクは、多くの異なる人々によって行われました。銀河動物園では、銀河あたり約40分類がありました。学部の研究アシスタントを使用して、研究者は、冗長性のこのレベルを余裕がないので、各個々の分類の品質でずっと気にする必要はない可能性があります。ボランティアが訓練に欠けていた何を、彼らは冗長性のために作ら。

でも銀河ごとに複数の分類では、しかし、コンセンサス分類を生成するためにボランティアの分類のセットを組み合わせることトリッキーです。非常によく似た課題は、ほとんどの人間の計算のプロジェクトで発生するので、簡単に銀河動物園の研究者がコンセンサス分類を生成するために使用される3つの手順を確認すると便利です。まず、研究者は、偽の分類を除去することにより、データを「洗浄します」。例えば、繰り返し彼らが操作しようとしていた場合にどうするのと同じ銀河-何か分類人々すべての分類が廃棄された結果は、持っていました。これおよび他の類似の洗浄は、全ての分類の約4％が除去されました。

第二に、洗浄後、研究者は、分類に体系的なバイアスを除去するために必要。元のプロジェクトのための例の中に埋め込まれたバイアス検出研究の代わりに、モノクロで銀河いくつかのボランティアを示す一連の色の研究者は、このような楕円銀河遠くスパイラル銀河を分類するための系統的な偏りなど、いくつかの体系的なバイアス、発見された(Bamford et al. 2009)多くの貢献を平均すると、系統的なバイアスを削除しないため、これらの系統的なバイアスを調整することは非常に重要です。それだけでランダム誤差を除去します。

最後に、デバイアシング後、研究者らは、コンセンサス分類を生成するために、個々の分類を組み合わせるための方法を必要としていました。各銀河のための分類を組み合わせるための最も簡単な方法は、最も一般的な分類を選択することであろう。しかし、このアプローチは、各ボランティア等しい重みを与えるだろう、と研究者は、いくつかのボランティアが他のものより、分類で良好であったことが疑われます。そのため、研究者は、自動的に最適分類器を検出し、それらをより多くの重量を与えるためにしようと、より複雑な反復重み付け手順を開発しました。

このように、3段階のプロセス、洗浄後のデバイアシング、および重み付け銀河動物園の研究チームは、コンセンサス形態学的分類のセットに4000万ボランティアの分類を変換していました。これらの銀河動物園の分類は銀河動物園を鼓舞するのに役立ったSchawinskiによる分類など、プロの天文学者によって以前の3つの小規模な試み、と比較した場合には、強力な合意がありました。このように、ボランティアは、合計で、高品質の分類を提供することができたと研究者が一致しませんでしたスケールで(Lintott et al. 2008)実際には、銀河のような多数の人間の分類を有することにより、Schawinskiは、Lintott、その他は銀河の約80％はについて書かれている期待のパターン青色の渦巻きと赤の楕円-と多数の論文に従っていることを示すことができましたこの発見(Fortson et al. 2011)

このような背景を考えると、我々は今ギャラクシー動物園スプリット適用コンバインレシピ、ほとんどのヒト計算プロジェクトのために使用されているのと同じレシピを、以下の方法を見ることができます。まず、大きな問題はチャンクに分割されます。この場合、百万銀河分類の問題は、一つの銀河を分類百問題に分割されます。次に、動作は、それぞれ独立してチャンクに適用されます。この場合、ボランティアは、スパイラル状又は楕円形のいずれかとして、それぞれの銀河を分類します。最後に、結果がコンセンサス結果を生成するために組み合わされます。この場合には、組み合わせる工程は、洗浄、デバイアシング、各銀河のコンセンサス分類を生成するための重み付けが含まれていました。ほとんどのプロジェクトは、この一般的なレシピを使用する場合でも、の各ステップは、アドレスされている特定の問題に合わせてカスタマイズする必要があります。例えば、以下に記載のヒト計算プロジェクトで、同じレシピが続きますが、適用と組み合わせるステップはかなり異なるであろう。

銀河動物園のチームでは、この最初のプロジェクトは始まりに過ぎませんでした。非常に迅速に彼らは百万の銀河の近くに分類することができたにもかかわらず、この規模は約100億の銀河の画像を作り出すことができる新しいデジタルスカイサーベイ、で動作するだけでは十分ではないことに気づいた(Kuminski et al. 2014) 10,000銀河動物園の10に100万から増加を処理するために十億の要因は、およそ1万倍以上の参加者を募集する必要があります。インターネット上のボランティアの数が多い場合でも、それは無限ではありません。そのため、研究者は彼らがこれまでのデータの増加量を処理しようとしている場合ことに気づいた、新しい、より一層スケーラブルなアプローチが必要でした。

したがって、マンダ銀河を分類するためにケビンSchawinski、クリスLintott、および銀河動物園のチーム始動教育コンピューターの他のメンバーとBanerji加工。具体的には、銀河動物園、によって作成された人間の分類使用してBanerji et al. (2010)画像の特性に基づいて、銀河の人間分類を予測できる機械学習モデルを構築しました。この機械学習モデルは、高精度で人間の分類を再現することができれば、銀河の本質的に無限の数を分類する銀河動物園の研究者によって使用することができます。

その類似性は一見明確でないかもしれないがBanerjiのコアと同僚のアプローチは、実際には一般的に社会的な研究に使用される技術にはかなり似ています。まず、Banerjiらは、それが特性だ要約数値機能のセットに各画像を変換しました。画像内の青の量、各画素の輝度の分散、非白画素の割合：例えば、銀河の画像のための3つの機能があるかもしれません。正しい機能の選択は、問題の重要な部分であり、それは一般に、対象領域の専門知識を必要とします。一般的に機能工学と呼ばれるこの最初のステップは、画像ごとに1行とそのイメージを記述し、その後3列のデータ行列になります。ロジスティック回帰に基づく人間の分類を予測するようなデータ行列と所望の出力（例えば、画像は楕円銀河のような人間によって分類されたかどうか）、研究者は統計モデル - 例えばのパラメータを推定し、何かを考えます画像の特徴について。最後に、研究者は新しい銀河（図5.4）の推定分類を生成するために、この統計的モデルのパラメータを使用しています。社会的アナログを考えるためには、万人の学生についての人口統計情報を持っていて、あなたは彼らが大学を卒業したか否かを知っていることを想像してみてください。あなたは、このデータにロジスティック回帰を合うことができるし、その後、新しい学生が大学を卒業しようとしているかどうかを予測するために、得られたモデルパラメータを使用することができます。機械学習では、このアプローチ-使用して標識の例は、新しいラベルを付けることができ、統計モデルを作成するためのデータを-さ教師あり学習と呼ばれる(Hastie, Tibshirani, and Friedman 2009)

図5.4：どのようにBanerjiらを簡単に説明。（2010）は、銀河の分類を行うために機械学習モデルを訓練するために銀河動物園の分類を使用します。銀河の画像は、特徴の行列に変換しました。この簡単な例では三つの特徴（画像中の青の量、各画素の明るさのばらつき、及び非白画素の割合）があります。そして、画像のサブセットに対して、銀河動物園のラベルは、機械学習モデルをトレーニングするために使用されます。最後に、機械学習は、残りの銀河のための分類を推定するために使用されます。私はこの種のプロジェクトを呼び出した人間が問題を解決するのではなく、彼らは人間が問題を解決するためにコンピュータを訓練するために使用することができるデータセットを構築する必要があり、ため、第二世代の人間の計算プロジェクト。このコンピュータ支援アプローチの利点は、それが人間の努力の唯一の限られた量を使用してデータを本質的に無限の量を処理することができますということです。

図5.4：どのように簡単に説明Banerji et al. (2010)銀河の分類を行うために機械学習モデルを訓練するために銀河動物園の分類を使用します。銀河の画像は、特徴の行列に変換しました。この簡単な例では三つの特徴（画像中の青の量、各画素の明るさのばらつき、及び非白画素の割合）があります。そして、画像のサブセットに対して、銀河動物園のラベルは、機械学習モデルをトレーニングするために使用されます。最後に、機械学習は、残りの銀河のための分類を推定するために使用されます。私はこの種のプロジェクトを呼び出した人間が問題を解決するのではなく、彼らは人間が問題を解決するためにコンピュータを訓練するために使用することができるデータセットを構築する必要があり、ため、第二世代の人間の計算プロジェクト。このコンピュータ支援アプローチの利点は、それが人間の努力の唯一の限られた量を使用してデータを本質的に無限の量を処理することができますということです。

機能Banerji et al. (2010)機械学習モデルは私のおもちゃの例-のための例のものよりも複雑で、彼女は「デVaucouleursは軸比に合う」などの機能を使用していた彼女のモデルはロジスティック回帰ではなかった-そして、それは人工ニューラルネットワークでした。彼女の特徴、彼女のモデル、およびコンセンサス銀河動物園の分類を使用して、彼女はそれぞれの特徴に重みを作成し、銀河の分類についての予測を行うためにこれらの重みを使用することができました。例えば、彼女の分析が低いと画像「デVaucouleursは軸比に合うように「スパイラル銀河である可能性が高いことがわかりました。これらの重みを考えると、彼女は妥当な精度で銀河の人間の分類を予測することができました。

仕事Banerji et al. (2010) 、私は第二世代の人間の計算システムを呼ぶものに銀河動物園を回しました。これらの第二世代のシステムについて考えるための最良の方法は持つ人間が問題を解決するのではなく、彼らは人間が問題を解決するためにコンピュータを訓練するために使用することができるデータセットを構築しなければならないことです。コンピュータを訓練するために必要なデータの量は、それを作成するために、ヒト質量協力を必要とすることを非常に大きくすることができます。銀河動物園、によって使用されるニューラルネットワークの場合Banerji et al. (2010)確実に人間の分類を再現することができたモデルを構築するために、人間の標識の例の非常に多くを必要としました。

このコンピュータ支援アプローチの利点は、それが人間の努力の唯一の限られた量を使用してデータを本質的に無限の量を処理することができますということです。例えば、百万人の分類銀河と研究者はその後億、あるいは兆銀河を分類するために用いることができる予測モデルを構築することができます。銀河の膨大な数がある場合、人間とコンピュータのハイブリッドこの種のは実際には可能な解決策です。この無限のスケーラビリティは、しかし、無料ではありません。それ自体が難しい問題であり、正しく人間の分類を再現できる機械学習モデルの構築が、幸いにもこのトピックに専用の優れた書籍が既に存在している(Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013)

銀河動物園は、多くのヒトの計算プロジェクトの進化を示しています。まず、研究者は自分でや研究助手（例えば、Schawinskiの初期分類努力）の小さなチームでプロジェクトをしようとします。このアプローチはうまくスケールしない場合は、研究者は多くの人々が分類に寄与する人間の計算のプロジェクトに移動することができます。しかし、データの一定量のために、純粋な人間の努力だけでは十分ではありません。その時点で、研究者は、人間の分類は、データの事実上無制限の量に適用することができる機械学習モデルをトレーニングするために使用されている第二世代のシステムを構築する必要があります。