問題タブ [flume-ng]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
flume-ng - 下の水路シンク構成の違い
Flume の以下の 3 つのシンク構成について非常に混乱しています。私を明確にしてください
CONF1
CONF2
CONF3
このシンクのそれぞれの具体的なユースケースは何ですか?
google-app-engine - Flume を使用して Google Cloud Storage 上の HDFS/GS に書き込むために必要な最小限の設定は何ですか?
Flume-ng から Google Cloud Storage にデータを書き込みたいと考えています。非常に奇妙な動作を観察したため、少し複雑です。説明させてください:
序章
バケットを使用するように設定された Google クラウド (ワンクリック) で Hadoop クラスターを起動しました。
マスターで ssh し、hdfs
コマンドを使用してファイルを追加すると、バケットですぐに確認できます
しかし、コンピューターから追加して読み取ろうとすると、他の HDFS を使用しているようです。ここに というファイルを追加しましたjp.txt
が、以前のファイルが表示されませんtest.txt
これは、HDFS を調べたときに表示される唯一のファイルでもありますhttp://ip.to.my.cluster:50070/explorer.html#/
Web コンソール ( https://console.developers.google.com/project/my-project-id/storage/my-bucket/ )を使用してバケット内のファイルを一覧表示すると、のみが表示され、 は表示test.txt
されませんjp.txt
。
Hadoop が Google Cloud Storage に接続できないことを読み、それに応じて Hadoop クライアントを構成した (かなり難しいことです) と、バケット内のアイテムが表示されるようになりました。しかし、そのためにはgs://
URIを使用する必要があります
観察・中間結論
したがって、同じクラスタに 2 つの異なるストレージ エンジンがあるようです: 「従来の HDFS」( で始まるhdfs://
) と Google ストレージ バケット ( で始まるgs://
)。
ユーザーと権限は、ファイルをどこからリストするかによって異なります。
質問
主な質問は次のとおりです。flume を使用して Google Cloud Storage 上の HDFS/GS に書き込むために必要な最小限の設定は何ですか?
関連する質問
- 目標を達成するために、Google Cloud で Hadoop クラスタを起動する必要がありますか?
- Google Cloud Storage Bucket に直接書き込むことはできますか? はいの場合、どのようにflumeを構成できますか? (jar の追加、クラスパスの再定義...)
- 同じクラスターに 2 つのストレージ エンジンがあるのはなぜですか (従来の HDFS / GS バケット)
私のフルーム構成
行 a1.sinks.hdfs_sink.hdfs.path はgs://
パスを受け入れますか?
その場合、どのようなセットアップが必要ですか (追加の jar、クラスパス) ?
ありがとう
flume - Flume - Flume.root.logger=DEBUG,console は INFO レベルのログ ステートメントのみをログに記録します
Flume 1.4.0-cdh4.7.0 を CentOS (cloudera VM) にインストールしました
次のコマンドを実行して、flume を開始しました
Flume-ng エージェント -n エージェント名 -c conf -f conf/flume.conf -Dflume.root.looger=DEBUG,console
ただし、デフォルト (INFO) レベルをコンソールに書き込むだけです。理由がわかりませんか?
apache - Dir の Flume への移動
/flume/events の下の HDFS に、flume API または Java API を使用して、サブディレクトリとファイルのリストを含む DIR をロードしたいと考えています。Cloudera cdh5.1 を使用しています
この点で私を助けてください。サブディレクトリとファイルを含むディレクトリを取り込み/ロードする方法のコーディングに行きたいと思います。Flume api/Java apiを使用してhdfsにファイルをロードすることについて考えています
前もって感謝します
docker - Flume with GCS シンクが OutOfMemoryException をスローする原因
Flume を使用して Google Cloud Storage に書き込みます。Flume は をリッスンしHTTP:9000
ます。機能させるのに少し時間がかかりました(gcsライブラリを追加し、資格情報ファイルを使用します...)が、今ではネットワーク経由で通信しているようです。
テスト用に非常に小さな HTTP リクエストを送信していますが、利用可能な RAM は十分にあります。
最初のリクエストでこのメモリ例外が発生しました(もちろん、動作を停止します):
(完全な詳細については、要点として完全なスタック トレースを参照してください)
奇妙な点は、フォルダーとファイルが思い通りに作成されているのに、ファイルが空であることです。
Flume + GCS の設定方法に問題があるのでしょうか、それとも GCS.jarのバグですか?
より多くのデータを収集するにはどこを確認すればよいですか?
ps : docker 内でflume-ngを実行しています。
私のflume.conf
ファイル:
私のflume / gcsジャーニーの関連質問:flumeを使用してGoogle Cloud Storage上のHDFS / GSに書き込むために必要な最小限のセットアップは何ですか?
tcp - カスタム ポート Google Compute Engine をリッスンするホスティング プロセス
この質問は、Google Compute Engine の VM インスタンスのポートをリッスンする Java プロセスすべてに当てはまります。
VM で Apache Flume-ng プロセスが実行されているポート 9090 で TCP 接続を確立しようとしています。デフォルト ネットワークに 0.0.0.0/0 TCP:9090 のファイアウォール ルールを追加したところ、プロセスがそのポートでリッスンしていることがわかります。
接続しようとしているときに、エフェメラル ホスト IP と静的ホスト IP の両方を試しました。ローカル Web アプリで Flume-ng クライアント経由で接続しようとしていますが、ローカル ルーティング用に構成すると機能します。このような構成になっています
Flume クライアントから TCP SocketExceptions が表示されます。GCE でポート 9090 に接続しようとしているアプリケーションは、独自の OAuth 資格情報を確立する必要がありますか? または、私が見逃している可能性のあるものは他にありますか?
hadoop - Flume がログを Hdfs に書き込んでいない
それで、Apache2アクセスログをhdfsに書き込むようにflumeを構成しました...そして、flumeのログからわかったように、すべての構成は正しいですが、まだhdfsに書き込んでいない理由はわかりません。これが私のflume構成ファイルです
これが私のflumeログです
これがコマンドです。私はflumeを起動するために使用しました
そして、hdfsにパスがあります
しかし、なぜhdfsに書き込まれていないのかわかりません..apache2のアクセスログを見ることができます..しかし、flumeはそれらをhdfs/flumelogsディレクトリに送信していません....助けてください! !