ユーザーの皆さん、こんにちは!
Cloudera 4.6 にフルームをインストールし、Twitter からツイートを取得しようとしています。
そこで、HDFS シンクと HBase シンクを作成し、ツイートを収集しています... しかし、HBase のデータは適切に構造化されていません。
データは構造化されていないため、impala でクエリを実行できません。
ツイート {NAME => 'tweet'}, {NAME => 'retweet'}, {NAME => 'entities'}, {NAME => 'user'} というテーブルを作成しました
私のフルーム構成は次のとおりです。http://pastebin.com/4b5d3R8Q
このチュートリアルに従っていますが、彼のシリアライザーをどうすればよいかわかりません。
https://github.com/AronMacDonald/Twitter_Hbase_Impala jar にする必要がありますか?
私は現在これを Hbase に持っています: http://pastebin.com/aNGBsvB7 すべてはつぶやきの列にあります...