問題タブ [flume-ng]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - HDFS に書き込む Flume エージェントはどこで実行しますか?
25 ~ 20 のエージェントがデータをいくつかのコレクター エージェントに送信し、これらのコレクター エージェントはデータを HDFS に書き込む必要があります。
これらのコレクター エージェントはどこで実行しますか? Hadoop クラスターのデータ ノード上ですか、それともクラスター外ですか? それぞれの長所と短所は何ですか?また、人々は現在どのようにそれらを実行していますか?
node.js - Node.js から Flume-NG へ
中間ファイルなしで Node.js から Flume-NG にデータを移動できる機能的なプロジェクトはありますか?
Node.js から Flume にデータを移動することはより一般的なニーズだと思っていましたが、そうではないようです。
これを試みたと思われる多くのプロジェクトを見つけましたが、すべて約 3 年前に放棄されたようで、現在のバージョンでは機能しません。古いバージョンのflumeでも動作するものがあるようですが、APIはflume-ngで大幅に変更され、適用できなくなりました。
Node.js 用の avro および thrift モジュールを見つけました。thrift には node.js のサポートがあり、これは単純明快であることを示しているように見えますが、これは機能していません。Flume で使用するトランスポート/プロトコルに関する十分な情報がない可能性があります。 -NG、または単によく理解していないだけかもしれません。
車輪を再発明する前に、誰かが私を正しい方向に向けることができますか?
これは私が持っている現在のノードコードです。ECONNREFUSED を生成します。
java - Flume: Avro イベント デシリアライザーから Elastic Search へ
AVRO デシリアライザーによって作成されたレコードを取り、ElasticSearch に送信したいと考えています。これを行うには、カスタム コードを作成する必要があることに気付きました。
LITERAL オプションを使用すると、GenericRecord を使用するための最初のステップである JSON スキーマが得られます。しかし、AVRO Java API を見てみると、GenericRecord を 1 つのレコードに使用する方法がわかりません。すべての例で DataFileReader を使用しています。
つまり、Flume イベントからフィールドを取得できません。
誰もこれを以前にやったことがありますか?ティア。
java - Apache Flume /var/log/flume-ng/flume.log (許可が拒否されました)
/home/cloudera/Documents/flume/ からログ ファイルを読み取り、Apache Flume を使用して hdfs に書き込もうとしています。次のコマンドを使用して、 hdfs に FlumeLogTest フォルダーを作成しました。
私の設定ファイルは次のとおりです。
そして、次のコマンドでflume-agentを起動しました:
ここで、Documents/flume は /home/cloudera/ 内のフォルダーです。このフォルダーには次のファイルが含まれています。
- Flume-conf.properties.template
- log4j.properties
- Flume-env.sh.template
- Flume-env.sh
- Example1.conf
次のエラーが表示されます。
質問が明確であることを願っています。整理するのを手伝ってください。前もって感謝します。
configuration - Flume は、flume conf のキーワードのフィルタリングを無視します
flume
TWITTER DATAのインポートに使用しています。conf
に次の行を追加しました。flume
TwitterAgent.sources.Twitter.keywords = hadoop, big data, analytics, bigdata, cloudera, data science, data scientiest, business intelligence, mapreduce, data warehouse, data warehousing, mahout, hbase, nosql, newsql, businessintelligence, cloudcomputing
しかし、flume
この行は無視します!
Flume
常に twitter からすべてのデータをインポートします。指定されておらず、キーワードでフィルター処理されています。
フィルタリングを機能させるにはどうすればよいですか?
flume - ソースファイルのファイルメタデータを取得する Flume spooldir
Flume イベントごとに、ファイルのファイル名とファイル作成日を spooldir ディレクトリに追加する必要があるという要件があります。fileHeader=true を設定することで、イベントのヘッダーにファイル名を追加できることがわかりました。同様に、カスタム インターセプターを記述してファイルの作成日を見つけることもできますか?