hadoop - 新しいデータが HDFS に追加されたことを知る方法は?

Question

パブリッシュサブスクライブモデルに基づく通知システムを実装して、データが HDFS に到着/ロードされたときにデータの可用性について通知します。これを探す方法が見つかりませんでした。これを行うために使用できる HDFS API はありますか、または HDFS に書き込まれた新しいデータの情報を取得するにはどのような方法を使用すればよいですか? 私は Hadoop v2.0.2 を使用していますが、HCatalog を使用したくありません。これを行うために独自のツールを実装したいと考えています。

score 3 · Accepted Answer

あなたが探しているのはですOozie Coordinator。

HDFSはファイルシステムであるため、ファイルの可用性を確認するには、HDFS の上に何かを構築する必要があります。HBaseトリガーされたプロシージャであるコプロセッサがあります。ただし、HBase テーブルでのみ使用できます。そのため、HDFS でのデータ可用性の検出には使用できません。

Oozieは、Hadoop ジョブを管理するためのワークフロースケジューラシステムです。Oozie コーディネータージョブは、時間 (頻度) とデータの可用性によってトリガーされる繰り返しの Oozie ワークフロージョブです。また、そこから他のプログラムを実行することもできます:

Oozie は Hadoop スタックの残りの部分と統合されており、すぐに使用できるいくつかのタイプの Hadoop ジョブ (Java map-reduce、ストリーミング map-reduce、Pig、Hive、Sqoop、Distcp など) とシステム固有のジョブ ( Java プログラムおよびシェルスクリプト)。

そのため、通知システムにもファイル可用性トリガーを使用できます。

score 1 · Accepted Answer

HDFS を使用している場合は、HBase に必要な機能があるため、HBase を確認することをお勧めします。HBase では、データがテーブルに書き込まれるたびに少しのコードを実行する、基本的に MySQL トリガーと同等の動作をするプリプット (またはポストプット) コプロセッサーを作成できます。

HBase がユースケースに合わず、HDFS を使用する必要がある場合、私の知る限り、同様のトリガーはありません。HDFS API を独自のコードでラップして、適切な状況でデータがファイルシステムに書き込まれるたびに通知を実行することができます。または、変更のために HDFS をポーリングすることもできます (これは醜い代替手段のように聞こえます)...

それが役立つことを願っています

hadoop - 新しいデータが HDFS に追加されたことを知る方法は?

2 に答える 2

Related

Reference