問題タブ [flume-ng]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
flume - 行書き込みごとに新しいファイルを作成するApache Flume
フルームの感触を掴むために実験をしていた。以下は私の設定ファイルです。
vi コマンドを使用して test.txt ファイルに追加する行ごとに、flume ログを確認すると、HDFS /tflume ディレクトリに新しいファイルが作成されます。なんでそうなの ?
既存のファイルに追加するためにflumeを期待していましたが、同時にhdfsへのデータ書き込みもログを見ると長すぎます。
事前に返信していただきありがとうございます。
hadoop - Flume がファイルを書き込むための構成 ~100mb (120mb hdfs ファイルサイズに近い)
私の場合、少なくとも HDFS のブロック サイズを 128 MB に近づけるように Flume を構成しようとしています。これは、ファイルごとに約10MBを書いている私の設定です:
したがって、問題は、約100MBのファイルを書き込むことができないことです..次のように構成を変更すると、少なくとも約100MBを書き込むことが期待されます。
しかし、その後、ファイルはさらに小さくなり、彼は約3〜8MBのファイルを書いています... hdfsにあるファイルを集約することは実際には不可能であるため、このファイルを大きくしたいと思っています。rollSize パラメータについて何か分からないことがありますか? または、デフォルト値があるので、その大きなファイルを書き込まないようにしますか?
flume - AWS インスタンスで Flume エージェントを実行していますが、AWS インスタンス上の avro シンクからローカル マシン上の avro ソースへのイベントを受信できませんか?
これは、AWS インスタンスのコンソールに表示されるエラーです。
2014-08-09 12:22:41,803 (lifecycleSupervisor-1-2) [INFO -org.apache.flume.source.AvroSource.start(AvroSource.java:142)] ローカルからの Avro ソースの開始: { bindAddress: ec2-54 -221-143-114.compute-1.amazonaws.com、ポート: 44444}... 2014-08-09 12:22:42,072 (lifecycleSupervisor-1-1) [警告 - org.apache.flume.sink. AvroSink.start(AvroSink.java:244)] ホスト名を使用して avro クライアントを作成できません: ec2-54-221-143-114.compute-1.amazonaws.com、ポート: 41414 org.apache.flume.FlumeException: NettyAvroRpcClient {ホスト: ec2-54-221-143-114.compute-1.amazonaws.com、ポート: 41414 }: org.apache.flume.api.NettyAvroRpcClient.connect(NettyAvroRpcClient.java:117) での org での RPC 接続エラー。 org.apache.flume.api.NettyAvroRpcClient の apache.flume.api.NettyAvroRpcClient.connect(NettyAvroRpcClient.java:93)。configure(NettyAvroRpcClient.java:514) org.apache.flume.api.RpcClientFactory.getInstance(RpcClientFactory.java:88) org.apache.flume.sink.AvroSink.createConnection(AvroSink.java:182) org.apache org.apache.flume.sink.DefaultSinkProcessor.start(DefaultSinkProcessor.java:46) の .flume.sink.AvroSink.start(AvroSink.java:242) org.apache.flume.SinkRunner.start(SinkRunner.java:79) の) org.apache.flume.lifecycle.LifecycleSupervisor$MonitorRunnable.run(LifecycleSupervisor.java:236) で java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) で java.util.concurrent.FutureTask で。 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:178) java.util.concurrent.ThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) で java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) で(ThreadPoolExecutor.java:615) at java.lang.Thread.run(Thread.java:744) 原因: java.io.IOException: ec2-54-221-143-114.compute-1.amazonaws への接続エラー。 com/10.80.54.114:41414 at org.apache.avro.ipc.NettyTransceiver.getChannel(NettyTransceiver.java:261) at org.apache.avro.ipc.NettyTransceiver.(NettyTransceiver.java:203) at org.apache.avro .ipc.NettyTransceiver.(NettyTransceiver.java:152) at org.apache.flume.api.NettyAvroRpcClient.connect(NettyAvroRpcClient.java:106) ...15 以上 原因: java.net.ConnectException: org.jboss.netty で sun.nio.ch.SocketChannelImpl.checkConnect(Native Method) で接続が拒否されました.channel.socket.nio.NioClientSocketPipelineSink$Boss.connect(NioClientSocketPipelineSink.java:401) org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.processSelectedKeys(NioClientSocketPipelineSink.java:370) org.jboss.netty .channel.socket.nio.NioClientSocketPipelineSink$Boss.run(NioClientSocketPipelineSink.java:292)739) org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.connect(NioClientSocketPipelineSink.java:401) で org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.processSelectedKeys(NioClientSocketPipelineSink.java: 370) org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.run(NioClientSocketPipelineSink.java:292) で739) org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.connect(NioClientSocketPipelineSink.java:401) で org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.processSelectedKeys(NioClientSocketPipelineSink.java: 370) org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink$Boss.run(NioClientSocketPipelineSink.java:292) で
hadoop - Apache Flume 1.5 が Hadoop 2/自動フェイルオーバー クラスター構成で期待される結果をもたらさない
CentOS 6.5//64 ビットの HA/自動フェイルオーバー構成で Apache Hadoop 2 クラスターを構成しました。Flume 1.5 (apache-flume-1.5.0-bin.tar.gz) をインストールしました。Flume/Hive を使用して、いくつかのキーワード フィルタリングを使用して Twitter データを分析したいと考えています。以下の画像を参照してください:
hadoop2 構成ファイルの内容は次のとおりです (重要なプロパティのみ)。
core-site.xml
hdfs-site.xml
Flume 設定ファイルの内容は次のとおりです。
Flume-env.sh
さえずり.conf
次のコマンドを実行しています。
以下の質問/問題があります。
- a)-キーワードのフィルタリングが機能していません。構成ファイルで間違ったプロパティを設定していませんか?
- b)-このプロセスは、hdfs の /user/flume/tweets/20140814/1_55 のファイルをコピーしていません。
- c)-Twitter/API アクセス トークンのアクセス レベルは読み取り専用です。読み取り/書き込みアクセスが必要ですか?
- d)-私は twitter.conf を使用しているので、hdfs.path スタイルを使用するのは正しい方法ですか?
- e)-プロセスは実行中であり、停止していません。停止する基準が不明です。
次の出力が引き続き表示されます。
私が欠けているものを助けてください。
このタスクに使用する前に、Maven で Flume を再ビルドする必要がありますか?
scala - Spark に来る Flume の Avro イベントをデシリアライズする方法は?
Flume Avro シンクと、シンクを読み取る SparkStreaming プログラムがあります。CDH 5.1、Flume 1.5.0、Spark 1.0、Spark のプログラム言語として Scala を使用
Spark の例を作成し、Flume Avro イベントをカウントすることができました。
ただし、Flume Avro イベントを文字列\テキストにシリアル化し、構造行を解析することはできませんでした。
Scalaを使用してこれを行う方法の例はありますか?
hadoop - Flume + HDFS-200 追加
ページhttps://cwiki.apache.org/confluence/display/FLUME/Getting+Startedは、HDFS シンクが追加をサポートしていると述べていますが、それを有効にする方法に関する情報を見つけることができませんでした。すべての例はローリング ファイルにあります。したがって、可能であれば、既存のファイルにflumeを追加する方法に関する情報をいただければ幸いです)
アップデート
すべてのローリング プロパティを 0 に設定すると、flume は単一のファイルに書き込むようになりますが、ファイルは閉じられず、新しいレコードは他のプロセスから見えなくなります。私に似たトピックがあります:Flume NG and HDFS、DmitryはFlumeが追加をサポートしていないと言っていますが、答えは1年前であり、ドキュメントは反対のことを言っているので、おそらくflumeが改善されたか、何かを誤解していると思いました。高く評価されます。
アップデート
質問が不明確であることに気付いたので、達成しようとしていることを説明させてください。ログを 1 つのファイルに書き込み、hdfs に取り込まれるとすぐにログを読み取れるようにしたいのです。現時点では、Cloudera Impala を使用して検索クエリを実行しています。Flume が新しいイベントをすぐにディスクにフラッシュするように構成されていても、新しいイベントは表示されません。少なくとも、そう信じています。私の調査によると、通常、人々はこれらの目的で HBase を使用していますが、私の知る限り、Solr のような外部インデックスを使用しない限り、アドホック検索クエリには効果的ではありません。問題は、できるだけ早く解決策が必要であることです。たとえば、Fluentd は既存のファイルに追加できますが、プレーン テキスト ファイルでのみ機能し、バイナリ形式を好むなど、より簡単に実行できることを望んでいました。
cloudera - Clouderaのflume.confの場所
ノードに Cloudera Manager (4.5.0) をインストールしました。
Flume エージェントを動的に変更したいのですが、ファイルと関連する Flume.conf がどこにあるかがわかりません。
/opt/cloudera/parcels/CDH-4.5.0-1.cdh4.5.0.p0.30/etc/flume-ng/conf.empty にこのファイルがありますが、空であり、変更しても変更されません読まれます。