hadoop - ストリーミングデータと Hadoop? (Hadoop ストリーミングではない)

Question

MapReduce アプローチを使用して (HTTP 経由でアクセスされる) データの連続ストリームを分析したいので、Apache Hadoop を調べています。残念ながら、Hadoop は、新しいデータが到着したときに消費者に渡すことができるのではなく、固定サイズの入力ファイルでジョブを開始することを期待しているようです。これは実際に当てはまりますか、それとも何か不足していますか? 開いているソケットから読み込まれるデータを操作する別の MapReduce ツールはありますか? ここではスケーラビリティが問題になるので、MapReducer に厄介な並列処理を処理させたいと思います。

Cascadingをいじってみたところ、HTTP 経由でアクセスする静的ファイルでジョブを実行できましたが、これで実際に問題が解決するわけではありません。中間ステップとして curl を使用して Hadoop ファイルシステムのどこかにデータをダンプし、新しいデータチャンクの準備が整うたびに新しいジョブを起動するウォッチドッグを作成することもできますが、それは汚いハックです。これを行うには、もっとエレガントな方法が必要です。何か案は？

score 10 · Accepted Answer

あなたが説明するハックは、多かれ少なかれ物事を行うための標準的な方法です-Hadoopは基本的にバッチ指向のシステムです（たとえば、データに終わりがない場合、リデューサーは開始する必要があるため、開始できませんマップフェーズは終了しています)。

ログをローテーションします。それらを回転させたら、それらを HDFS にダンプします。ウォッチドッグプロセス (おそらく、ZooKeeper を使用して調整された分散型プロセス) でゴミ捨て場を監視し、新しい処理ジョブを開始します。オーバーヘッドを保証するのに十分な大きさの入力でジョブが実行されるようにする必要があります。

Hbase は Hadoop エコシステムの BigTable クローンであり、挿入の継続的なストリームを可能にするので、興味深いかもしれません。ただし、バッチモードで分析クエリを実行する必要があります。

score 6 · Accepted Answer

http://s4.io/はどうですか。ストリーミングデータを処理するために作られています。

アップデート

新製品が登場しています：Storm-分散型でフォールトトレラントなリアルタイム計算：ストリーム処理、連続計算、分散型RPCなど

score 2 · Accepted Answer

2

Esper CEP ( http://esper.codehaus.org/ )を確認する必要があると思います。

于 2009-08-14T14:14:12.037 に答える

score 1 · Accepted Answer

Yahoo S4 http://s4.io/

マップリデュースのようなリアルタイムストリームコンピューティングを提供します

score 1 · Accepted Answer

ここに複数のオプションがあります。解決策として、Kafka と Storm + (Hadoop または NoSql) の組み合わせをお勧めします。私たちはすでにこれらのオープンソースツールを使用してビッグデータプラットフォームを構築しており、非常にうまく機能しています。

score 0 · Accepted Answer

いくつかの成熟したストリーム処理フレームワークと製品が市場で入手可能です。オープンソースフレームワークには、Apache Storm や Apache Spark などがあります (どちらも Hadoop 上で実行できます)。IBM InfoSphere Streams や TIBCO StreamBase などの製品も使用できます。

ストリーム処理と、これらすべてのフレームワークおよび製品について詳しく説明している InfoQ の記事をご覧ください: Real Time Stream Processing / Streaming Analytics in Combination with Hadoop。また、この記事では、これが Hadoop をどのように補完するかについても説明しています。

ところで、Oracle や TIBCO などの多くのソフトウェアベンダーは、このストリーム処理/ストリーミング分析アプローチを「ビッグデータ」ではなく「高速データ」と呼んでいます。これは、バッチ処理ではなくリアルタイムで処理する必要があるためです。

score 0 · Accepted Answer

Apache Spark Streaming を試す必要があります。それはあなたの目的のためにうまくいくはずです。

score 0 · Accepted Answer

あなたのユースケースは、Hadoop を使用して Web クローラーを作成する問題に似ています。HTTP 経由でリモートページを取得するために開かれたソケットからデータが (ゆっくりと) ストリームバックします。

その場合は、Web ページのフェッチが map-reduce に適切にマップされない理由を参照してください。そして、このタイプの問題を解決するために、リデューサーに (カスケード経由で) スレッド化されたアプローチを実装する BixoのFetcherBufferクラスをチェックアウトすることをお勧めします。

hadoop - ストリーミング データと Hadoop? (Hadoop ストリーミングではない)

10 に答える 10

アップデート

Related

Reference

hadoop - ストリーミングデータと Hadoop? (Hadoop ストリーミングではない)