私は、それぞれ約 600MB のバイナリ形式 (FITS) で、数十個の完全な天空図を持っています。
それぞれの天空図について、私はすでに数千の源、すなわち星、銀河、電波源の位置のカタログを持っています。
各ソースについて、次のことを行います。
- 全天地図を開く
- 関連するセクションを抽出します。通常は 20MB 以下です
- それらについていくつかの統計を実行します
- 出力をカタログに集約する
hadoopおそらくインターフェイスをpython介して使用して、streamingそれらを並行して処理したいと思います。
マッパーへの入力はカタログの各レコードである必要があると思います。その後、pythonマッパーは全天球図を開いて処理を行い、出力を に出力できstdoutます。
- これは合理的なアプローチですか?
hadoopその場合、ソースの 1 つを処理しているノードに全天球マップがローカルにコピーされるように構成できる必要があります。どうすればそれを達成できますか?- また、入力データをフィードする最良の方法は何
hadoopですか? ソースごとに、全天球図、緯度と経度への参照があります