Twitter ストリーミング API を使用して、ツイートを SQL データベースにプッシュし、データベースから好きなだけプルすることで、真のライブ ストリームをセットアップします。これにより、ブラックリストに登録されることなく、レート制限をある程度回避できます。ここでこの方法を見つけました。
ストリーム内のいくつかのキーワードを追跡します (15 以下)
stream.twitter.com/whatever?q=word1 OR word2 OR word3 OR ...
これらを保存しているので、それらをすべて 1 つの大きなテーブルにダンプするか、キーワードごとに切り分けるのが最善でしょうか? それが好みによるものなのか、それともある方法が他の方法よりも優れているのかはわかりません。
最終的には、それらを前処理して正しいキーワード テーブルに入れるか、大量のテーブルから後処理して、keyword = "word1" などのものを選択することになると思います。
最適化の観点からどちらが優れているかについて何か考えはありますか?