4

小型で軽量なバッグオブワード検索エンジンの推奨事項はありますか?

基本的に任意の単語の小さなバッグである「ドキュメント」のセットがあります。新しいドキュメントが与えられた場合、「類似した」ドキュメントのリストと、それらがどの程度類似しているかについての重み付けを取得する必要があります。文書は小さい可能性が高く、せいぜい数段落です。

  • ステミングは優れていますが、必須ではありません。
  • ワードネットによるワード展開は不要。
  • これはプロトタイプであり、本格的なプロジェクトではないため、オープンソースまたはフリーウェアが推奨されます。
  • UNIX/Linux プラットフォームが推奨されます。

私はそれをサブコンポーネントとして使用し、ID を含むドキュメントをフィードすることだけを期待し、後で現在持っているドキュメントと「類似した」ドキュメントを検索します。

4

4 に答える 4

1

Whooshは純粋な Python (C や外部データベースなし) のインデクサー/検索エンジンです。詳細については、ドキュメントを参照してください。ステミングをサポートします。

mediawiki インスタンスの XML ダンプで試してみたところ、かなりうまく機能するようでした!

于 2009-09-21T23:30:50.893 に答える
0

SolrまたはSphinx。それらは正確に軽量というわけではありませんが、プロジェクトが成功して成長する必要がある場合、検索エンジンを切り替えるのは苦痛かもしれません.

于 2009-09-21T23:12:41.380 に答える
0

Luceneはオプションだと思います。カスタム バッグ オブ ワード検索エンジンを構築できるはずです。

于 2009-09-21T23:13:57.690 に答える
0

MongoDB について知りたいhttp://www.mongodb.org/display/DOCS/Home

「全文検索」が私が求めているもののようです...そして、検索する追加のフィールドがあると便利かもしれません。

于 2009-09-22T01:45:45.660 に答える