次の形式のデータのチャット レコードが 100 万件以上あります。
chat_message
city
timestamp
ここで、「旅行」、「宿泊」、「ホテル」などの旅行に関連するキーワードを確認する必要があります。旅行に関連する約 15 のキーワードが集まったとします。
要件は、キーワードを使用して旅行に関連するチャット メッセージをマイニングすることです。どうやって?
私が考えることができる解決策 - 旅行関連のキーワードの配列を用意します。次に、各キーワード (アルゴに一致する文字列) のすべてのメッセージをスキャンします。
解決策はかなり力ずくだと思います。検索するためのより効率的なアルゴリズムに関するアイデア、またはチャット記録または/およびキーワードの設定はありますか?