1

ページhttps://cwiki.apache.org/confluence/display/FLUME/Getting+Startedは、HDFS シンクが追加をサポートしていると述べていますが、それを有効にする方法に関する情報を見つけることができませんでした。すべての例はローリング ファイルにあります。したがって、可能であれば、既存のファイルにflumeを追加する方法に関する情報をいただければ幸いです)

アップデート

すべてのローリング プロパティを 0 に設定すると、flume は単一のファイルに書き込むようになりますが、ファイルは閉じられず、新しいレコードは他のプロセスから見えなくなります。私に似たトピックがあります:Flume NG and HDFS、DmitryはFlumeが追加をサポートしていないと言っていますが、答えは1年前であり、ドキュメントは反対のことを言っているので、おそらくflumeが改善されたか、何かを誤解していると思いました。高く評価されます。

アップデート

質問が不明確であることに気付いたので、達成しようとしていることを説明させてください。ログを 1 つのファイルに書き込み、hdfs に取り込まれるとすぐにログを読み取れるようにしたいのです。現時点では、Cloudera Impala を使用して検索クエリを実行しています。Flume が新しいイベントをすぐにディスクにフラッシュするように構成されていても、新しいイベントは表示されません。少なくとも、そう信じています。私の調査によると、通常、人々はこれらの目的で HBase を使用していますが、私の知る限り、Solr のような外部インデックスを使用しない限り、アドホック検索クエリには効果的ではありません。問題は、できるだけ早く解決策が必要であることです。たとえば、Fluentd は既存のファイルに追加できますが、プレーン テキスト ファイルでのみ機能し、バイナリ形式を好むなど、より簡単に実行できることを望んでいました。

4

1 に答える 1

1

Flume で自分のやりたいことを実行する方法を見つけることができなかったので、最終的にログ ストリーミングに Cloudera Search を使用することにしました。具体的には、取り込みと取得の両方に Solr を使用することにしました。Flume には、大量の比較的小さなファイルを作成せずに hdfs でリアルタイムに取り込む機能がないようです。将来的に修正されることを願っています。

于 2014-09-15T13:34:21.080 に答える