-1

次の形式のデータのチャット レコードが 100 万件以上あります。

chat_message
city
timestamp

ここで、「旅行」、「宿泊」、「ホテル」などの旅行に関連するキーワードを確認する必要があります。旅行に関連する約 15 のキーワードが集まったとします。

要件は、キーワードを使用して旅行に関連するチャット メッセージをマイニングすることです。どうやって?

私が考えることができる解決策 - 旅行関連のキーワードの配列を用意します。次に、各キーワード (アルゴに一致する文字列) のすべてのメッセージをスキャンします。

解決策はかなり力ずくだと思います。検索するためのより効率的なアルゴリズムに関するアイデア、またはチャット記録または/およびキーワードの設定はありますか?

4

1 に答える 1

-1

走行距離は異なる場合があります。

ホスト言語が JavaScript の場合は、 lunrjsなどの全文検索エンジンを使用することをお勧めします。トークン化、ステミング、インデックス作成などの生データの前処理が必要です。そして、より便利にデータを検索できます。

それでも、(JavaScript を使用しているため) 少なくともブラウザーの場合、データ セットは非常に大きくなります。これをクライアント側に実装する場合は、アルゴリズム以外の多くの詳細を考慮する必要があります。メモリ割り当て、データ転送、一覧表示なし。

ただし、サーバー側の場合は、ElasticSearchなどのより成熟したソリューションを検討する価値があります。

于 2015-01-31T06:05:50.650 に答える