小型で軽量なバッグオブワード検索エンジンの推奨事項はありますか?
基本的に任意の単語の小さなバッグである「ドキュメント」のセットがあります。新しいドキュメントが与えられた場合、「類似した」ドキュメントのリストと、それらがどの程度類似しているかについての重み付けを取得する必要があります。文書は小さい可能性が高く、せいぜい数段落です。
- ステミングは優れていますが、必須ではありません。
- ワードネットによるワード展開は不要。
- これはプロトタイプであり、本格的なプロジェクトではないため、オープンソースまたはフリーウェアが推奨されます。
- UNIX/Linux プラットフォームが推奨されます。
私はそれをサブコンポーネントとして使用し、ID を含むドキュメントをフィードすることだけを期待し、後で現在持っているドキュメントと「類似した」ドキュメントを検索します。