問題タブ [flume]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hdfs - Flume-ng で HDFS Sink と rollInterval を使用して 90 秒のログ情報をバッチ処理する
Flume-ng を使用して 90 秒のログ情報を取得し、それを HDFS のファイルに入れようとしています。exec と tail を介してログ ファイルを参照するように Flume を使用していますが、90 秒ごとに設定しようとしているのではなく、5 秒ごとにファイルを作成しています。
私のflume.confは次のとおりです。
パラメータでファイルサイズを制御しようとしています - agent1.sinks.sink1.hdfs.rollInterval=90。
この構成を実行すると、次が生成されます。
タイムスタンプからわかるように、約 5 秒ごとにファイルを作成しています。これにより、多くの小さなファイルが作成されます。
より長い時間間隔 (90 秒) でファイルを作成できるようにしたいと考えています。
flume - Flume-ng エージェントを起動できません
私はflume-ngを使い始めようとしており、http: //flume.apache.org/FlumeUserGuide.htmlのユーザーガイドに従っています。
簡単なテストとしてメモリ内エージェントを設定した後、次のコマンドを実行しています。
次の出力が表示されますが、これは明らかに開始したことを示していません。何が起こっているのか誰か教えてください。オンラインで検索しましたが、あまり見つかりませんでした。
flume - apache flumeをインストールして構成する方法は?
ApacheFlumeの新機能です。HDFSクラスター環境の上に水路をインストールする必要があります。私はグーグルでそれをしました、すべてがclouderaディストリビューションを使用していると言っていますが、ソースからインストールして構成する必要があります。
それで、誰かが私に、どこから始めて、水路エージェントとシンクサービスをカスタマイズする方法を提案できますか?
flume - Flume-ng用のカスタムHTTPSourceハンドラーを作成します
Flume-ngのHTTPSourceのカスタムハンドラーを作成するのに役立つリソースはありますか。ドキュメントを読み、Jsonのサンプルハンドラーがありますが、XMLメッセージ本文からFlumeイベントを作成するためのハンドラーを作成する必要があったのではないかと思います。HttpSourceはFlume-ng1.3.1で利用できるようになりましたが、データを解釈するためのハンドラーが必要です。
ありがとう。
flume - バージョン1.3.1でflumeカスタムシンクとソースを作成する方法
flumeバージョン1.3で独自のシンクとソースを作成しようとしています。設定ファイルflume-site.xmlがありません。Javaファイルをコンパイルした後、このカスタムシンクをどのように使用できますか?
apache - Apache Flume を使用した Apache サーバー ログのパイピング
私は Apache Flume バージョン 1.3 を使用しており、Apache Flume User guideを参照しています。
私の目的は、Apache サーバーのログを Apache Flume Agent のチャネルに直接パイプすることです。私の理解が正しければ、Apache サーバーはローカル ファイルを作成しません。server.log、error.log ですが、対応する出力をエージェントのチャネルに直接書き込みます。ログに書き込む場合でも、エージェントはそれらのファイルから読み取ることはありません。しかし、少なくともApacheサーバーのドキュメントには、同じ例はありません。
私のクエリは次のとおりです。
Apache Flume ではなく Cloudera Flume に関連するこのリンクを参照しました。これを試してみましたが、予想どおり、Apache サーバーでエラーが発生しました。
/li>
Apache Flume と Cloudera Flume が同期しているとは思えません。
- Apache サーバーのドキュメントによると、 Apache httpd は、ファイルに直接ではなく、パイプを介して別のプロセスにエラーおよびアクセス ログ ファイルを書き込むことができます。 実行中の Apache Flume エージェントでこれを達成するにはどうすればよいですか。つまり、Apache conf のエントリは何である必要がありますか?
CustomLog "| ?" 一般
flume - Flumeエージェント-テールを使用-F
ApacheFlumeは初めてです。私は次のようなエージェントを作成しました:
そして、私が得ている出力は次のとおりです。
ただし、HDFSにログを書き込んでいるわけではありません。
実行するcat /var/log/apache2/access.log
代わりに実行tail –F /var/log/apache2/access.log
すると、ファイルがHDFSで作成されます。
私を助けてください。
hadoop - シンクに障害が発生した後、Flume-NGにイベントのバックログを処理させるにはどうすればよいですか?
一連のサーバー(主にTomcatインスタンスとApache Httpdを実行している)からさまざまな種類のログを収集し、5ノードのHadoopクラスター上のHDFSにダンプするようにFlume-NGをセットアップしようとしています。セットアップは次のようになります。
各アプリケーションサーバーは、関連するログをいずれかのExecソース(ログタイプごとに1つ:java、httpd、syslog)にテールし、FileChannelを介してAvroシンクに送信します。各サーバーでは、さまざまなソース、チャネル、およびシンクが1つのエージェントによって管理されます。イベントは、Hadoopクラスター(SecondaryNameNodeとJobtrackerもホストするノード)にあるAvroSourceによって取得されます。ログタイプごとに、異なるポートでリッスンしているAvroSourceがあります。イベントはFileChannelを経由してHDFSシンクに送られ、FlumeEventAvroEventSerializerとSnappy圧縮を使用してイベントが保存されます。
問題:JVMのヒープサイズを変更しなかったため、HDFSシンクを管理するHadoopノード上のエージェント(ここでも、ログタイプごとに1つ)が数時間後に失敗しました。それ以降、HadoopノードのFileChannelが最大容量に達したため、そのノードのFileChannelで、その後はアプリケーションサーバーのFileChannelでも多くのイベントが収集されました。問題を修正したとき、Hadoopノードのエージェントにバックログを十分に迅速に処理させることができなかったため、通常の操作を再開できませんでした。FileChannelがイベントをシンクする前に保存するtmpディレクトリのサイズは、常に大きくなり続けます。また、HDFSの書き込みは非常に遅いようです。新しいイベントを取り込む前に、Flumeに最初にバックログを処理させる方法はありますか?次の構成は最適ですか?多分関連:HDFSに書き込まれるファイルは非常に小さく、約1〜3MB程度です。これは、HDFSのデフォルトのブロックサイズが64MBであり、将来のMR操作に関しては確かに最適ではありません。HDFSブロックサイズに十分な大きさのファイルにイベントを収集するには、どの設定を使用する必要がありますか?Hadoopノードの構成が正しくないと感じています。BatchSize、RollCount、および関連するパラメーターの値がオフになっていると思われますが、最適な値がどうあるべきかわかりません。
アプリケーションサーバーの設定例:
Hadoopノードの設定例
flume - Flume stdout から IRC へ
クラスター化されたアプリケーションの各ノードの出力を、一目でわかる簡単な場所に統合しようとしています。データを永続的に保存する必要はありません。すべての標準出力を同じ場所に表示したいだけです。最終的には、おそらくログ ファイルを使用して、はるかに少ない情報を保存したいと思うでしょう。
ドキュメントでは、標準出力に出力するプロセスを使用できるように見えますが、exec ソースを使用して見たすべての例は、tail を使用したコマンドを示しています。私の設定 (以下を参照) は私のアプリケーションをコマンドとして実行しますが、トラブルシューティングのために、設定された間隔で「テスト」をエコーする単純なシェル スクリプトを実行します。
私はすべてを実行しており、IRC シンクは IRC チャネルに参加していますが、メッセージを送信しません。ログの最後のエントリは、Exec が開始されていることです。
編集: flumeバージョンflume-ng-1.2.0+24.43-1~squeeze
Flume.config:
log4j.プロパティ:
test.sh:
Flume.log:
出力が表示されるまで100秒だった20メッセージ(デフォルト?)まで待っていたので、編集バッチサイズが問題だったようです。現在、batchsize = 1 で、標準のロガーが結果を出力していますが、IRC は NullPointerException について不平を言っています。
amazon-web-services - スラッシュを含む秘密鍵を使用している場合に s3 シンクに接続すると、無効なホスト名エラーが発生する
私はforward slash
awsの秘密鍵を持っています。
s3 シンクに接続しようとすると
でスラッシュをエンコードすると%2F
、
秘密鍵をどのようにエンコードすればよいですか。