ツイート分析用のシステムを設計する際にアドバイスが必要です。
目的: 特定のハッシュタグについて、他のハッシュタグとの共起頻度を調べます。時間ごとのパターンを見つけます。この形式のクエリに答えることができるはずです: 特定の日付 (たとえば 2013 年 4 月 13 日) と特定の 1 時間 (たとえば 3:00-4:00 PM ) について、上位 5 つの共起は何ですか?ハッシュタグ「#iPhone」。
私のアプローチ: 「twitter4j」ライブラリを使用して Twitter データにアクセスしています。1 回の呼び出しで 100 個のツイートを照会して取得できます (Twitter はそれらの数のみを許可します)。時間やその他の関連データを抽出できます。5 分ごとに Twitter にクエリを実行するスレッドを作成する予定です。これはオブザーバーの毎時パターンに対して行われます。これが私が打たれたところです:この情報をDBにどのように保存すればよいですか? 「#iPhone」で発生する頻度としてキーと値を持つハッシュマップを維持する必要があります。または、集計されていないデータを DB に直接保存する必要がありますか? オブザーバーの時間パターンに「twitter」を照会する最良の方法は何ですか? 時間をDBに「エポック」形式で保存するか、1つの列と時間をDBの別の列として日付として保存する必要がありますか?
貴重なご意見をありがとうございます。