java - ルセン検索

Question

親愛なる StackOverFlow 開発者の皆様助けてください。私は Java スイングアプリケーションで使用する Apache lucene で立ち往生しています。問題は非常に複雑で、私でさえ混乱しています。私の実際の要件が何であるかを理解してください。クライアントがswingアプリケーションでhtmlファイルにアクセスできるように、htmlファイルを提供する必要があるのは簡単です。検索機能には、apache luceneインデックスを使用することにしました。これは検索機能を提供していますが、検索条件に一致した html ファイルデータを表示したいと考えています。Java APIではswingを使用しており、JEditorPaneはhtmlファイルの内容を表示する必要があるコントロールです。html ファイルのインデックスを作成する方法と、html ファイルのコンテンツを lucene インデックスから取得する方法を教えてください。HTMLファイルにはテキストだけでなく、リンクも含まれています。

よろしくお願いします。

score 2 · Accepted Answer

フルテキストのインデックス作成と検索に Lucene を使用したプロジェクトの 1 つで、HTML ファイルを次のように処理しました。

HTML ドキュメントをそのままディスクに保存します (DB にも保存できます)。
Jericho HTMLParserの HTML->Text コンバーターを使用して、HTML ドキュメントからテキスト、リンクなどを抽出しました。
lucene ドキュメントには、HTML のテキストコンテンツとは別に、HTML ファイルに関するメタデータをトークン化された形式で格納する属性があります。
StandardAnalyzer を使用して、インデックス作成前のトークン化プロセス中に電子メール、Web サイトリンクなどの特定のトークンをそのまま保持しました。
インデックスを検索すると、返されたヒットには、条件に一致する HTML ファイルのメタデータが含まれていました。そのため、特定の検索結果に対して表示される HTML コンテンツを特定することができました。

HTH。

java - ルセン検索

1 に答える 1

Related

Reference