1

OpenSearchServer (コミュニティ エディション) v1.2.4-rc3 - 安定版 - rev 1474 - ビルド 802 を使用しています。C# および C++ プログラミング Web サイトをクロールしています。C# または C++ を検索すると、ソフトウェアは #、+ などの特殊文字を削除します。結果は、どのソフトウェアが返すか正確ではありません。OpenSearchServer / Lucene で (#) のような特殊文字を処理するにはどうすればよいですか? 誰でも私にアイデアを提案してもらえますか? 前もって感謝します

4

1 に答える 1

1

C#およびC ++コード用語を表すために必要な特殊文字を保持するカスタムまたはセミカスタムのトークナイザーを使用するように、インデックス作成戦略を変更する必要があります。このトークナイザーは、インデックス作成中と検索中の両方で使用します。

手元では、org.apache.lucene.analysis.standardorg.apache.lucene.wikipedia.analysisを調べて、トークナイザーを構築する方法(JFlexなどのトークナイザー(字句解析)ジェネレーターを使用)としていくつかのアイデアを取得します。トークナイザーを手動でコーディングするのではなく、要求される場合があります)。

于 2012-04-17T20:56:04.360 に答える