検索クエリのログを使用していくつかの調査を行おうとしています。私の最初の興味はトレンドを見つけることです。たとえば、冬になると口唇ヘルペスがよく起こります。冬になると、このようなタイプのクエリが増えると思います。
傾向を検出する方法:
- アプリオリなアルゴリズムか何かを使用して、頻繁なアイテム セットを取得します。
- 時間範囲内の各セットのカウント数 (1 時間、1 日など)
- これが ax + b の回帰である場合、線形回帰を使用して相対的な関数の変化を見つけます。次に、(a*(first_date)+b)/(a*(second_date)+b) を計算します。
だから私には問題があります:大量のデータセットで頻繁に設定されるアイテムを見つけるのは非常に困難です(私は何百万ものクエリを持っています)。アプリオリなアルゴリズムを実装しましたが、サポートが少なく非常に遅く動作しています (たとえば、200k のクエリで 2 回実行すると 1 日かかる場合があります)。
私の場合、最適なアルゴリズムは何ですか? 多分私は別の方法で私の仕事を解決できますか?