0

以下で説明する問題に使用する必要がある技術の可能性を評価するよう求められています。可能なオプションは、Hadoop、Hive、および Pig です。私はどちらもあまり経験がありません。読むのに適したソースを指摘できれば。私はグーグルでたくさんの参考文献を見つけましたが、段階的な説明や比較を見つけるのは難しいです.

これが私が解決する必要があるタスクです。

ユーザーはシステムに文章を入力します。文は単語ごとに分割され、Cassandra カラム ファミリーに格納されます。各行は 1 つの単語 (キー) であり、列名は、このレコードが列の値なしで入力されたタイム スタンプです。

データベースにクエリを実行し、次の内訳から取得した N 個の単語を抽出できる必要があります。

a_1% は、現在から過去までの期間 T1 の上位の単語でなければなりません a_2% は、現在から過去までの期間 T2 の上位の単語でなければなりません a_3% は、現在から過去までの期間 T3 の上位の単語でなければなりません

a_n% は、現在から過去までの期間 T_n の上位の単語でなければなりません

a_1+a_2+...a_n = 100%

T1、T2 などは任意の時間間隔です。

このタスクに使用する必要があるテクノロジの選択についての提案は、大歓迎です。私たちは Cassandra を使用しており、よく知っています。次に、その上に配置する分析ツールを決定する必要があります。

リンクや詳細は非常に高く評価されます。

4

2 に答える 2

2

HIVE で (時間間隔で) 分割されたデータがある場合、そのような「上位単語の組み合わせ」文を見つけることは、HIVE で 1 つのクエリで達成できます。また、HIVEQL sytnax は、特に SQL を知っている人にとって、将来の追加の分析に役立つ可能性があります。問題は、Cassandra と Hadoop を統合する方法です。誰かがそれについて何か言ってくれることを願っています。GL!
編集済み: Cassandra と HIVE の統合に関する素晴らしい章があります。

于 2013-03-05T21:39:57.067 に答える