問題タブ [flume-ng]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
70 参照

flume-ng - 下の水路シンク構成の違い

Flume の以下の 3 つのシンク構成について非常に混乱しています。私を明確にしてください

CONF1

CONF2

CONF3

このシンクのそれぞれの具体的なユースケースは何ですか?

0 投票する
1 に答える
1737 参照

google-app-engine - Flume を使用して Google Cloud Storage 上の HDFS/GS に書き込むために必要な最小限の設定は何ですか?

Flume-ng から Google Cloud Storage にデータを書き込みたいと考えています。非常に奇妙な動作を観察したため、少し複雑です。説明させてください:

序章

バケットを使用するように設定された Google クラウド (ワンクリック) で Hadoop クラスターを起動しました。

マスターで ssh し、hdfsコマンドを使用してファイルを追加すると、バケットですぐに確認できます

しかし、コンピューターから追加して読み取ろうとすると、他の HDFS を使用しているようです。ここに というファイルを追加しましたjp.txtが、以前のファイルが表示されませんtest.txt

これは、HDFS を調べたときに表示される唯一のファイルでもありますhttp://ip.to.my.cluster:50070/explorer.html#/

Web コンソール ( https://console.developers.google.com/project/my-project-id/storage/my-bucket/ )を使用してバケット内のファイルを一覧表示すると、のみが表示され、 は表示test.txtされませんjp.txt

Hadoop が Google Cloud Storage に接続できないことを読み、それに応じて Hadoop クライアントを構成した (かなり難しいことです) と、バケット内のアイテムが表示されるようになりました。しかし、そのためにはgs://URIを使用する必要があります

観察・中間結論

したがって、同じクラスタに 2 つの異なるストレージ エンジンがあるようです: 「従来の HDFS」( で始まるhdfs://) と Google ストレージ バケット ( で始まるgs://)。

ユーザーと権限は、ファイルをどこからリストするかによって異なります。

質問

主な質問は次のとおりです。flume を使用して Google Cloud Storage 上の HDFS/GS に書き込むために必要な最小限の設定は何ですか?

関連する質問

  • 目標を達成するために、Google Cloud で Hadoop クラスタを起動する必要がありますか?
  • Google Cloud Storage Bucket に直接書き込むことはできますか? はいの場合、どのようにflumeを構成できますか? (jar の追加、クラスパスの再定義...)
  • 同じクラスターに 2 つのストレージ エンジンがあるのはなぜですか (従来の HDFS / GS バケット)

私のフルーム構成

行 a1.sinks.hdfs_sink.hdfs.path はgs://パスを受け入れますか?

その場合、どのようなセットアップが必要ですか (追加の jar、クラスパス) ?

ありがとう

0 投票する
4 に答える
7832 参照

flume - Flume - Flume.root.logger=DEBUG,console は INFO レベルのログ ステートメントのみをログに記録します

Flume 1.4.0-cdh4.7.0 を CentOS (cloudera VM) にインストールしました

次のコマンドを実行して、flume を開始しました

Flume-ng エージェント -n エージェント名 -c conf -f conf/flume.conf -Dflume.root.looger=DEBUG,console

ただし、デフォルト (INFO) レベルをコンソールに書き込むだけです。理由がわかりませんか?

0 投票する
1 に答える
31 参照

apache - Dir の Flume への移動

/flume/events の下の HDFS に、flume API または Java API を使用して、サブディレクトリとファイルのリストを含む DIR をロードしたいと考えています。Cloudera cdh5.1 を使用しています

この点で私を助けてください。サブディレクトリとファイルを含むディレクトリを取り込み/ロードする方法のコーディングに行きたいと思います。Flume api/Java apiを使用してhdfsにファイルをロードすることについて考えています

前もって感謝します

0 投票する
1 に答える
1147 参照

docker - Flume with GCS シンクが OutOfMemoryException をスローする原因

Flume を使用して Google Cloud Storage に書き込みます。Flume は をリッスンしHTTP:9000ます。機能させるのに少し時間がかかりました(gcsライブラリを追加し、資格情報ファイルを使用します...)が、今ではネットワーク経由で通信しているようです。

テスト用に非常に小さな HTTP リクエストを送信していますが、利用可能な RAM は十分にあります。

最初のリクエストでこのメモリ例外が発生しました(もちろん、動作を停止します):

(完全な詳細については、要点として完全なスタック トレースを参照してください)

奇妙な点は、フォルダーとファイルが思い通りに作成されているのに、ファイルが空であることです。

Flume + GCS の設定方法に問題があるのでしょうか、それとも GCS.jarのバグですか?

より多くのデータを収集するにはどこを確認すればよいですか?

ps : docker 内でflume-ngを実行しています。


私のflume.confファイル:


私のflume / gcsジャーニーの関連質問:flumeを使用してGoogle Cloud Storage上のHDFS / GSに書き込むために必要な最小限のセットアップは何ですか?

0 投票する
1 に答える
156 参照

tcp - カスタム ポート Google Compute Engine をリッスンするホスティング プロセス

この質問は、Google Compute Engine の VM インスタンスのポートをリッスンする Java プロセスすべてに当てはまります。

VM で Apache Flume-ng プロセスが実行されているポート 9090 で TCP 接続を確立しようとしています。デフォルト ネットワークに 0.0.0.0/0 TCP:9090 のファイアウォール ルールを追加したところ、プロセスがそのポートでリッスンしていることがわかります。

接続しようとしているときに、エフェメラル ホスト IP と静的ホスト IP の両方を試しました。ローカル Web アプリで Flume-ng クライアント経由で接続しようとしていますが、ローカル ルーティング用に構成すると機能します。このような構成になっています

Flume クライアントから TCP SocketExceptions が表示されます。GCE でポート 9090 に接続しようとしているアプリケーションは、独自の OAuth 資格情報を確立する必要がありますか? または、私が見逃している可能性のあるものは他にありますか?

0 投票する
2 に答える
1879 参照

hadoop - Flume がログを Hdfs に書き込んでいない

それで、Apache2アクセスログをhdfsに書き込むようにflumeを構成しました...そして、flumeのログからわかったように、すべての構成は正しいですが、まだhdfsに書き込んでいない理由はわかりません。これが私のflume構成ファイルです

これが私のflumeログです

これがコマンドです。私はflumeを起動するために使用しました

そして、hdfsにパスがあります

しかし、なぜhdfsに書き込まれていないのかわかりません..apache2のアクセスログを見ることができます..しかし、flumeはそれらをhdfs/flumelogsディレクトリに送信していません....助けてください! !