私は、それぞれ約 600MB のバイナリ形式 (FITS) で、数十個の完全な天空図を持っています。
それぞれの天空図について、私はすでに数千の源、すなわち星、銀河、電波源の位置のカタログを持っています。
各ソースについて、次のことを行います。
- 全天地図を開く
- 関連するセクションを抽出します。通常は 20MB 以下です
- それらについていくつかの統計を実行します
- 出力をカタログに集約する
hadoop
おそらくインターフェイスをpython
介して使用して、streaming
それらを並行して処理したいと思います。
マッパーへの入力はカタログの各レコードである必要があると思います。その後、python
マッパーは全天球図を開いて処理を行い、出力を に出力できstdout
ます。
- これは合理的なアプローチですか?
hadoop
その場合、ソースの 1 つを処理しているノードに全天球マップがローカルにコピーされるように構成できる必要があります。どうすればそれを達成できますか?- また、入力データをフィードする最良の方法は何
hadoop
ですか? ソースごとに、全天球図、緯度と経度への参照があります