問題タブ [flume-twitter]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - gz.parquet ファイルの読み取り
こんにちは、gz.parquet ファイルからデータを読み取る必要がありますが、方法がわかりませんか?? インパラで試してみましたがparquet-tools cat
、テーブル構造がない場合と同じ結果が得られます。
PS: Spark コードを改善するための提案は大歓迎です。
gz.parquet
twitter => Flume => kafka => spark streaming => hive/gz.parquet ファイル) によって作成されたデータ パイプラインの結果として、次の寄木細工のファイルがあります。私が使用しているflumeエージェントの場合agent1.sources.twitter-data.type = org.apache.flume.source.twitter.TwitterSource
Spark コードは、次のように kafka からデータをデキューし、ハイブに格納します。
アプリを実行すると、次のようにspark-streaming
データがgz.parquet
ファイルとして hdfs:/user/hive/warehouse
ディレクトリに保存されます。
ファイルからのスキーマ_metadata
は次のとおりです。
hadoop - Flume 経由で Twitter からデータをダウンロードできない
上記のコマンドを実行すると、次のエラーが生成されます。
これは、flume/conf フォルダーにある私の Flume-twitter.conf ファイルです。
hadoop - ツイッターデータによる分析
Flume-twitter.conf
1 つの会社の下にマージされ、すべて独自の Web サイトを持つ複数の Web サイトからログ ファイルを取得する場合、4 つの重要なキー (コンシューマー キー、コンシューマー シークレット、アクセス トークン、アクセス シークレットなど) を Flume に追加するにはどうすればよいですか? -twitter.conf を編集して、統合されたすべての会社の Web サイトでさまざまなキーワードを使用して分析を行います。助けていただければ幸いです。
hadoop - ハイブ Hadoop: テーブルからデータを選択するとエラーが発生します
Hiveで外部テーブルを作成した後にツイート数まで知りたくて以下のクエリを書いてみたのですが、このエラーが出ました、この問題の解決方法を教えてください、これがmapred-site.xmlの構成です
apache - Facebook データストリーミング用に Apache Flume を設定する方法
Facebook データ ストリーミング用に Flume を設定する手順を教えてください。
Twitter からデータを抽出するために Flume を正常に構成しました。
twitter からデータを抽出するために作成した構成をご覧ください。
Twitter の Flume 構成
TwitterAgent.sinks.HDFS.channel = MemChannel
しかし、facebook で同じものを取得する方法は? または、Flume を使用した Facebook データ ストリーミングの動作構成を親切に提供してください。
java - Hadoop: java.net.ConnectException: 接続が拒否されました
こんにちは、私はこのチュートリアルに従おうとしてきました: http://www.tutorialspoint.com/apache_flume/fetching_twitter_data.htm 非常に長い間、ステップ 3: HDFS にディレクトリを作成することで完全に立ち往生しています。start-dfs.sh と start-yarn.sh を実行しましたが、チュートリアルと同じ出力が得られるため、どちらも正しく機能しているように見えますが、実行しようとすると:
私は同じエラーを受け取り続けます:
どこでも検索していくつかの解決策を試しましたが、進歩していないように見えるので、その理由を理解できません。これを引き起こす可能性があると思われるすべてのファイルをリストしますが、間違っている可能性があります: 私の core.site.xml は:
私の mapred-site.xml は次のとおりです。
私の hdfs.site.xml は次のとおりです。
仮想ボックスでUbuntu 14.04.4 LTSを実行しています。私の ~/.bashrc は次のようになります。
そして最後に、私の /etc/hosts ファイルは次のように設定されます:
追加された hadoopmaster は現在使用していません。これは、ローカル ホストを使用しないようにしてこれを修正しようとした試みの 1 つでした (機能しませんでした)。trz-VirtualBox はもともと 127.0.1.1 でしたが、実際の IP アドレスを使用する必要があると読みました。どちらもうまくいかなかったので、よくわかりません。エラーの場所がわからないため、これらのファイルをすべて投稿しました。私はそれがパスの問題だとは思わない (このステップに到達する前に多くのことがあり、自分で解決できた) ので、アイデアがありません。私はこれに何時間も取り組んでいるので、どんな助けも感謝しています。ありがとうございました。
hadoop - ツイートを 1 時間ごとに 1 つの FlumeData ファイルに保存するには、flume.conf パラメーターは何にすべきですか?
/user/flume/2016/06/28/13/FlumeData... のようなディレクトリ順でツイートを保存しています。しかし、1 時間ごとに 100 以上の FlumeData ファイルが作成されますTwitterAgent.sinks.HDFS.hdfs.rollSize = 52428800 (50 mb)
。 rollcount パラメーターを変更しても機能しませんでした。1 時間に 1 つの FlumeData ファイルを取得するようにパラメーターを設定するにはどうすればよいですか。
hadoop - Flume --PKIX パスの構築に失敗しました: sun.security.provider.certpath.SunCertPathBuilderException:
Ubuntuにjava、hadoop、flumeをインストールしました。Flume ジョブを実行して Twitter からデータを抽出すると、次のようなエラーが発生します。この背後にある問題を訴えないでください。