3

「パフォーマンス」と「パフォーマンス」の両方が発生する単語ドキュメントがあります。Word UIで高度な検索ツールを使用すると(最終的にこれをC#プログラム検索のFind.Executeコマンドに変換する目標)、[すべての単語フォームに一致]オプションをオンにすると、異なる結果が得られます。

「perform」を検索すると、「perform」と「performance」の両方が表示されます。
「パフォーマンス」を検索すると、「パフォーマンス」は「パフォーマンス」の単語形式として登録されているはずですが、「パフォーマンス」のヒットしか得られません。

Wordが検索アルゴリズムをどのように使用するか、または「パフォーマンス」を検索すると「パフォーマンス」と「パフォーマンス」の両方の結果が表示されることを確認する方法を知っている人はいますか?

編集(7/11/12 16:34)-
私は自分自身のパターンを見つけることができるかどうかを確認するためにいくつかのテストの組み合わせを実行しました、そしてまあ...それはそれほど有望ではありませんでした(資本化が重要です!?!)。
これらの結果が得られたドキュメントは、各単語形式の大文字と小文字の両方が大文字になっている単純な単語ドキュメントでした。検索するたびに、単語の大文字と小文字の両方のバージョンが見つかりました。
これがいくつかの検索の結果とそれらの明らかな結論です (「右クリック->新しいタブで画像を開く」を実行して、フルサイズの画像の詳細を表示します)
誰かが私のためにこれを明確にするドキュメントにリンクできるなら、それは大いにありがたいです!

編集(7/12/12 9:49)-
さらに悲しいことに:Word内のインターフェイスからC#のFind.Executeコマンドに切り替えようとしましたが、matchSoundsLikeパラメーターがUIの高度な検索機能と同じように機能しません: (プログラムによるmatchSoundsLikeフラグは、matchCaseを明示的にfalseに設定していても、大文字と小文字が一致する音のようなフォームのみを検出するようです。

4

1 に答える 1

0

これは、情報検索のかなり重要な領域であるQuery Expansionの適応のようです。

クエリ拡張エンジンを自分で構築しないことをお勧めします。これは、大規模なプロジェクトの小さな機能というよりも、修士 (またはおそらく博士) 論文のプロジェクトであるからです。ただし、この機能を自分で実装したい場合は、Google Scholar で「クエリ拡張」を検索することから始めて、最新の手法のいくつかを読むことをお勧めします。

既存のライブラリに関する限り、ほとんどのパッケージは Web 検索とデータベースに重点を置いているため、テキスト ファイルを検索するためのものを見つけるのに苦労しています。Google Query Expansionは、Google API の拡張機能であると明示的には述べていませんが、それが私の印象です。Microsoft SQL Server には、この機能が組み込まれているようです。これを実装するApache Lucene モジュールもあります。MySQL にも実装があります

既存のパッケージを使用したい場合は、少なくともテキストがデータベースに保存されるようにプログラムの構造を変更する必要があるようです。これにより、問題がテキスト検索の問題からコーパス検索の問題に変わります。コーパス検索の問題はよく研究されており、外部ソースによるより多くのドキュメントとツールがあります。そうは言っても、あなたのデータを知らなければ、これが価値のある解決策であるかどうか、またどの構造を選択すべきかはわかりません.

幸運を祈ります。質問に直接答えられなくて申し訳ありませんが、良い情報源を教えていただければ幸いです。

于 2012-07-12T02:17:20.713 に答える