以下で説明する問題に使用する必要がある技術の可能性を評価するよう求められています。可能なオプションは、Hadoop、Hive、および Pig です。私はどちらもあまり経験がありません。読むのに適したソースを指摘できれば。私はグーグルでたくさんの参考文献を見つけましたが、段階的な説明や比較を見つけるのは難しいです.
これが私が解決する必要があるタスクです。
ユーザーはシステムに文章を入力します。文は単語ごとに分割され、Cassandra カラム ファミリーに格納されます。各行は 1 つの単語 (キー) であり、列名は、このレコードが列の値なしで入力されたタイム スタンプです。
データベースにクエリを実行し、次の内訳から取得した N 個の単語を抽出できる必要があります。
a_1% は、現在から過去までの期間 T1 の上位の単語でなければなりません a_2% は、現在から過去までの期間 T2 の上位の単語でなければなりません a_3% は、現在から過去までの期間 T3 の上位の単語でなければなりません
a_n% は、現在から過去までの期間 T_n の上位の単語でなければなりません
a_1+a_2+...a_n = 100%
T1、T2 などは任意の時間間隔です。
このタスクに使用する必要があるテクノロジの選択についての提案は、大歓迎です。私たちは Cassandra を使用しており、よく知っています。次に、その上に配置する分析ツールを決定する必要があります。
リンクや詳細は非常に高く評価されます。