“flume-twitter”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

8215 参照

apache-spark - gz.parquet ファイルの読み取り

こんにちは、gz.parquet ファイルからデータを読み取る必要がありますが、方法がわかりませんか?? インパラで試してみましたがparquet-tools cat、テーブル構造がない場合と同じ結果が得られます。

PS: Spark コードを改善するための提案は大歓迎です。

gz.parquettwitter => Flume => kafka => spark streaming => hive/gz.parquet ファイル) によって作成されたデータパイプラインの結果として、次の寄木細工のファイルがあります。私が使用しているflumeエージェントの場合agent1.sources.twitter-data.type = org.apache.flume.source.twitter.TwitterSource

Spark コードは、次のように kafka からデータをデキューし、ハイブに格納します。

アプリを実行すると、次のようにspark-streamingデータがgz.parquetファイルとして hdfs:/user/hive/warehouseディレクトリに保存されます。

ファイルからのスキーマ_metadataは次のとおりです。

2016-03-30T09:32:07.460

0 投票する

1 に答える

2168 参照

hadoop - Flume 経由で Twitter からデータをダウンロードできない

上記のコマンドを実行すると、次のエラーが生成されます。

これは、flume/conf フォルダーにある私の Flume-twitter.conf ファイルです。

hadoop twitter flume flume-ng flume-twitter

2016-05-06T08:39:38.247

0 投票する

1 に答える

43 参照

hadoop - ツイッターデータによる分析

Flume-twitter.conf

1 つの会社の下にマージされ、すべて独自の Web サイトを持つ複数の Web サイトからログファイルを取得する場合、4 つの重要なキー (コンシューマーキー、コンシューマーシークレット、アクセストークン、アクセスシークレットなど) を Flume に追加するにはどうすればよいですか? -twitter.conf を編集して、統合されたすべての会社の Web サイトでさまざまなキーワードを使用して分析を行います。助けていただければ幸いです。

hadoop apache-spark flume flume-twitter

2016-05-27T11:59:30.030

0 投票する

1 に答える

392 参照

hadoop - ハイブ Hadoop: テーブルからデータを選択するとエラーが発生します

Hiveで外部テーブルを作成した後にツイート数まで知りたくて以下のクエリを書いてみたのですが、このエラーが出ました、この問題の解決方法を教えてください、これがmapred-site.xmlの構成です

hadoop hive hadoop-streaming hadoop-partitioning flume-twitter

2016-05-29T22:20:32.273

0 投票する

1 に答える

1153 参照

apache - Facebook データストリーミング用に Apache Flume を設定する方法

Facebook データストリーミング用に Flume を設定する手順を教えてください。

Twitter からデータを抽出するために Flume を正常に構成しました。

twitter からデータを抽出するために作成した構成をご覧ください。

Twitter の Flume 構成

TwitterAgent.sinks.HDFS.channel = MemChannel

しかし、facebook で同じものを取得する方法は? または、Flume を使用した Facebook データストリーミングの動作構成を親切に提供してください。

apache flume-twitter

2016-05-30T09:23:10.843

0 投票する

3 に答える

18919 参照

java - Hadoop: java.net.ConnectException: 接続が拒否されました

こんにちは、私はこのチュートリアルに従おうとしてきました: http://www.tutorialspoint.com/apache_flume/fetching_twitter_data.htm 非常に長い間、ステップ 3: HDFS にディレクトリを作成することで完全に立ち往生しています。start-dfs.sh と start-yarn.sh を実行しましたが、チュートリアルと同じ出力が得られるため、どちらも正しく機能しているように見えますが、実行しようとすると:

私は同じエラーを受け取り続けます：

どこでも検索していくつかの解決策を試しましたが、進歩していないように見えるので、その理由を理解できません。これを引き起こす可能性があると思われるすべてのファイルをリストしますが、間違っている可能性があります: 私の core.site.xml は:

私の mapred-site.xml は次のとおりです。

私の hdfs.site.xml は次のとおりです。

仮想ボックスでUbuntu 14.04.4 LTSを実行しています。私の ~/.bashrc は次のようになります。

そして最後に、私の /etc/hosts ファイルは次のように設定されます:

追加された hadoopmaster は現在使用していません。これは、ローカルホストを使用しないようにしてこれを修正しようとした試みの 1 つでした (機能しませんでした)。trz-VirtualBox はもともと 127.0.1.1 でしたが、実際の IP アドレスを使用する必要があると読みました。どちらもうまくいかなかったので、よくわかりません。エラーの場所がわからないため、これらのファイルをすべて投稿しました。私はそれがパスの問題だとは思わない (このステップに到達する前に多くのことがあり、自分で解決できた) ので、アイデアがありません。私はこれに何時間も取り組んでいるので、どんな助けも感謝しています。ありがとうございました。

java hadoop ubuntu-14.04 flume-ng flume-twitter

2016-06-05T02:42:54.563

0 投票する

3 に答える

112 参照

hadoop - ツイートを 1 時間ごとに 1 つの FlumeData ファイルに保存するには、flume.conf パラメーターは何にすべきですか?

/user/flume/2016/06/28/13/FlumeData... のようなディレクトリ順でツイートを保存しています。しかし、1 時間ごとに 100 以上の FlumeData ファイルが作成されますTwitterAgent.sinks.HDFS.hdfs.rollSize = 52428800 (50 mb)。 rollcount パラメーターを変更しても機能しませんでした。1 時間に 1 つの FlumeData ファイルを取得するようにパラメーターを設定するにはどうすればよいですか。

hadoop cloudera flume tweetstream flume-twitter

2016-06-29T11:52:49.217

0 投票する

0 に答える

539 参照

hadoop - Flume --PKIX パスの構築に失敗しました: sun.security.provider.certpath.SunCertPathBuilderException:

Ubuntuにjava、hadoop、flumeをインストールしました。Flume ジョブを実行して Twitter からデータを抽出すると、次のようなエラーが発生します。この背後にある問題を訴えないでください。

hadoop flume hadoop-streaming flume-ng flume-twitter

2016-08-18T09:24:18.623

問題タブ [flume-twitter]

TwitterAgent.sinks.HDFS.channel = MemChannel

Reference