0

アプリケーションを作成していますが、問題があります。

アプリの説明: ユーザーがテキスト ボックスに文章を書き、Enter キーを押します。アプリは、テキスト ファイルのフォルダーから文を検索し、その文に基づいて最も関連性の高いテキスト ファイルのタイトルを返す必要があります。

では、どのような基準で、その文またはその文の一部を含む最適なファイルを選択する必要がありますか? 出現回数、検索しているテキストファイルの長さなどに基づいて、いくつかのアイデアがあります。とても興味深い問題です。

インターネットで、私が見つけた最良のリンクはhttp://www.seomoz.org/blog/search-engine-algorithm-basicsでした。

アイデアの参考になさってください...

ありがとう!

4

1 に答える 1

2

従来の方法は、tf-idf モデルを使用して、キーワード (用語) がドキュメントにどの程度関連しているかを判断することです。

アイデアは次のとおりです。ドキュメントに何度も表示される場合、ドキュメントは後押しされます。ただし、非常に頻繁に使用される単語は、すべてのドキュメントに表示される可能性が高いため、ブースト ダウンされます (ドキュメントのスコアで重要度が低くなります)。

また、一般的に使用されているオープン ソース検索エンジンであるluceneの .NET バージョンであるLucene.NETについても調べてください。

Information Retrievalについても読みたいと思うかもしれません。この分野を学ぶための優れた情報源として、Stanford's Introduction to Information Retrievalをお勧めします。

于 2012-09-10T10:47:34.483 に答える