hadoop - ローカルファイルシステムから HDFS にファイルを移動するための Hadoop ツール

Question

共有ネットワークドライブから HDFS にデータをインポートする方法について POC を行っています。データは共有ドライブの異なるフォルダーにあり、各フォルダーは HDFS の異なるディレクトリに対応します。これを行う一般的なツールをいくつか調べましたが、それらのほとんどは、ファイル全体ではなく、小さなデータを移動するためのものです。これらは私が見つけたツールです。他に何かありますか?

Apache Flume:データを生成する運用サーバーが少数しかなく、データをリアルタイムで書き出す必要がない場合は、Web HDFS または NFS 経由でデータを HDFS に移動することも理にかなっています。書き出されるデータの量は比較的少なく、数時間ごとに数 GB のいくつかのファイルが HDFS に影響を与えることはありません。この場合、Flume を計画、構成、およびデプロイする価値はありません。Flume は実際にはリアルタイムでイベントをプッシュすることを目的としており、データのストリームは継続的であり、その量はかなり大きいです。【サファリオンラインのFlume bookとflumeクックブック】

Apache Kafka: Producer-consumer モデル : メッセージはディスク上に保持され、クラスター内でレプリケートされてデータの損失を防ぎます。各ブローカーは、パフォーマンスに影響を与えずに数テラバイトのメッセージを処理できます。

Amazon Kinesis: Flume のようなリアルタイムデータの有料バージョン

WEB HDFS:リダイレクトを自動的にたどったり、ファイルデータを送信したりせずに、HTTP PUT 要求を送信します。書き込むファイルデータを含む Location ヘッダーの URL を使用して、別の HTTP PUT 要求を送信します。[ http://hadoop.apache.org/docs/r1.0.4/webhdfs.html#CREATE]

オープンソースプロジェクト: https://github.com/alexholmes/hdfs-file-slurper

私の要件は簡単です：

ファイルのディレクトリをポーリングし、ファイルが来たら、それを HDFS にコピーし、ファイルを「処理済み」ディレクトリに移動します。
複数のディレクトリに対してこれを行う必要があります

score 2 · Accepted Answer

dtingestを試してみてください。共有ドライブ、NFS、FTP から HDFS などのさまざまなソースからのデータの取り込みをサポートしています。また、ディレクトリの定期的なポーリングもサポートしています。無料の試用版をダウンロードできるはずです。トップのApache Apexプラットフォームで開発されています。

score -1 · Accepted Answer

Hadoop 1.5用の Toad を確認してください。最新のリリースでは、ftp にインスパイアされた Local to HDFS Sync インターフェイスが導入されており、ユーザーがローカル環境と HDFS 環境の同期を維持するのに役立つ多くのオプションが用意されています。ブログ投稿へのリンクはこちら.

hadoop - ローカル ファイル システムから HDFS にファイルを移動するための Hadoop ツール

3 に答える 3

Related

Reference

hadoop - ローカルファイルシステムから HDFS にファイルを移動するための Hadoop ツール