何千ものWordファイルをPDFに変換したい場合、Hadoopを使用してこの問題に取り組むことは理にかなっていますか?Hadoopを使用すると、ジョブキューで複数のEC2インスタンスを使用するよりも利点がありますか?
また、1つのファイルと10の空きノードがある場合、hadoopはファイルを分割して10のノードに送信しますか、それとも9がアイドル状態のときにファイルは1つのノードにのみ送信されますか?
何千ものWordファイルをPDFに変換したい場合、Hadoopを使用してこの問題に取り組むことは理にかなっていますか?Hadoopを使用すると、ジョブキューで複数のEC2インスタンスを使用するよりも利点がありますか?
また、1つのファイルと10の空きノードがある場合、hadoopはファイルを分割して10のノードに送信しますか、それとも9がアイドル状態のときにファイルは1つのノードにのみ送信されますか?
このユースケースでHadoopを使用するメリットはあまりありません。競合するコンシューマーにキューから読み取らせて出力を生成させると、セットアップがはるかに簡単になり、おそらくより効率的になります。
Hadoopは、異なるノードでドキュメントとプロセスセクションを自動的に分割しませんでした。非常に大きい(数千ページの長さ)場合でも、Hadoopのユースケースは理にかなっていますが、単一のマシンでPDFを作成する時間が重要な場合に限ります。
マップタスクはそれぞれ数千ページを印刷でき、リデュースタスクはPDFを1つのドキュメントにマージします。ただし、結果のファイルが非常に大きい場合、結果のファイルを読み取るのは難しい場合があります。
何千ものWordファイルをPDFに変換したい場合、Hadoopを使用してこの問題に取り組むことは理にかなっていますか?Hadoopを使用すると、ジョブキューで複数のEC2インスタンスを使用するよりも利点がありますか?
どちらのツールでもこのタスクを実行できると思います。したがって、変換後にドキュメントをどのように処理するかによって異なります。New YorkTimesのDerekGottfridは、Hadoopが大規模なドキュメント変換に役立つツールであることで有名であるため、Hadoopがうまく機能するタスクの範囲内にあることは確かです。
また、1つのファイルと10の空きノードがある場合、hadoopはファイルを分割して10のノードに送信しますか、それとも9がアイドル状態のときにファイルは1つのノードにのみ送信されますか?
使用するInputFormatによって異なります。ドキュメントでわかるように、「InputSplits」の計算方法を指定できます。これには、大きなドキュメントをチャンクに分割することも含まれます。
この問題のためにあなたが選んだどんなツールでも頑張ってください!
よろしく、ジェフ
あなたは何千のことを話しているのですか?これが1回限りのバッチである場合、単一のマシンにセットアップして実行するだけで、タスクを実行する必要がある場合でも、数千のドキュメントをPDFに変換できる速度に驚かれることでしょう。数日、一度オフに変換する場合は、Hadoopなどの複雑な作業は必要ありません。何千ものドキュメントを継続的に変換している場合は、おそらく他の何かを設定する努力の価値があります。