問題タブ [flume-twitter]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - 例外が続きます-org.apache.flume.FlumeException: ソースタイプを読み込めません: com.cloudera.flume
Flume を使用して Twitter 分析を実行しようとしています。Twitter からツイートを取得するために、flume.conf ファイルに必要なすべてのパラメーター (consumerKey、consumerSecret、accessToken、および accessTokenSecret) を設定しました。
Flume-env.sh のクラスパス
Flume エージェントを実行すると
Flume source.jar を既に設定しているときにこのエラーがスローされる理由を誰でも言うことができます。これについて私を助けてください。
java - Flume Twitter エージェントによって生成された Avro テキスト ファイルが Java で読み取られない
Java も Avro Tools も使用せず、Flume Twitter エージェントを使用して Twitter データをストリーミングすることによって作成されたファイルを読み取って解析することができません。私の要件は、avro 形式を JSON 形式に変換することです。
いずれかの方法を使用すると、例外が発生します。org.apache.avro.AvroRuntimeException: java.io.IOException: Block size invalid or too large for this implementation: -40
疑似ノード クラスターで Hadoop バニラ構成を使用しており、hadoop のバージョンは 2.7.1 です。
Flume のバージョンは 1.6.0 です
Twitter エージェントの Flume 構成ファイルと、avro ファイルを解析するための Java コードを以下に添付します。
私が得た例外スタックトレースは次のとおりです。
また、Avro ファイルを正しく読み取るために Avro スキーマを指定する必要がありますか?
hadoop - 静的 Web サイトから HDFS にデータを取り込むにはどうすればよいですか?
そのためのSpring XD、Flumeなどの他の利用可能なフレームワークは何ですか? どれが一番いいですか; データを持ち込む手順を教えてください。
hadoop - Twitter データのストリーミング中にエラーが発生しました
私は CDH 4.7 を使用しており、flume を使用してストリーミング Twitter データを Hadoop にダウンロードしようとしています。次のコマンドを実行しています。しかし、/user/flume パスでいくつかの許可拒否の問題が示されています。
この問題を解決するにはどうすればよいですか?
hadoop - Windows で Hadoop を使用して Flume をインストールする方法について何か考えはありますか?
Hadoop を c:\hadoop2.5.2 にインストールし、flume バイナリ ファイルを c:\hadop2.5.2\apache-flume-1.6.0 の下に解凍します。
以下に示すようなエラーが表示されますか?
Flume.sh にパラメータを設定しました
これを解決する方法を教えてください。
apache - Apache Flume が Twitter ストリームを続行しない
HortonWorks で Apache Flume のツイートを取得しようとしています。(チュートリアルポイント参照)
Flume は正しく構成されています。これがflume.confです
Flume エージェントを実行した後:
この時点で画面がフリーズします。続行する方法を教えてください。または、サンドボックスのために長く待つ必要がありますか? ここに画像の説明を入力
hdfs - Cloudera 5.4.2: Flume および Twitter ストリーミングの使用時に Avro ブロック サイズが無効または大きすぎる
Cloudera 5.4.2 を試してみると、小さな問題があります。この記事に基づいて
Apache Flume - Twitter データの取得 http://www.tutorialspoint.com/apache_flume/fetching_twitter_data.htm
データ分析のために Flume と twitter ストリーミングを使用してツイートをフェッチしようとします。Twitter アプリを作成し、HDFS にディレクトリを作成し、Flume を構成してから、データのフェッチを開始し、ツイートの上にスキーマを作成します。
それでは、ここで問題です。Twitter ストリーミングは、ツイートを Avro 形式に変換し、Avro イベントをダウンストリーム HDFS シンクに送信します。Avro によってサポートされている Hive テーブルがデータをロードすると、「Avro ブロック サイズが無効であるか大きすぎます」というエラー メッセージが表示されました。
あ、アブロブロックとブロックサイズの制限って何?変更できますか?このメッセージによると、それはどういう意味ですか? ファイルのせいですか?それはいくつかのレコードのせいですか?Twitter のストリーミングがエラー データに一致した場合は、コア ダウンする必要があります。ツイートをAvro形式に変換すればよろしければ、逆にAvroのデータは正しく読めるはずですよね?
そして、 avro-tools-1.7.7.jar も試します
同じ問題。私はそれをよくグーグルで検索しますが、まったく答えがありません。
あなたもこの問題に遭遇した場合、誰かが私に解決策を教えてもらえますか? または、Avro や Twitter のストリーミングを完全に理解している場合は、誰かが手がかりを与えるのに役立ちます.
本当に面白い問題です。考えてみてください。