1

親愛なる StackOverFlow 開発者の皆様 助けてください。私は Java スイング アプリケーションで使用する Apache lucene で立ち往生しています。問題は非常に複雑で、私でさえ混乱しています。私の実際の要件が何であるかを理解してください。クライアントがswingアプリケーションでhtmlファイルにアクセスできるように、htmlファイルを提供する必要があるのは簡単です。検索機能には、apache luceneインデックスを使用することにしました。これは検索機能を提供していますが、検索条件に一致した html ファイル データを表示したいと考えています。Java APIではswingを使用しており、JEditorPaneはhtmlファイルの内容を表示する必要があるコントロールです。html ファイルのインデックスを作成する方法と、html ファイルのコンテンツを lucene インデックスから取得する方法を教えてください。HTMLファイルにはテキストだけでなく、リンクも含まれています。

よろしくお願いします。

4

1 に答える 1

2

フルテキストのインデックス作成と検索に Lucene を使用したプロジェクトの 1 つで、HTML ファイルを次のように処理しました。

  • HTML ドキュメントをそのままディスクに保存します (DB にも保存できます)。
  • Jericho HTMLParserの HTML->Text コンバーターを使用して、HTML ドキュメントからテキスト、リンクなどを抽出しました。
  • lucene ドキュメントには、HTML のテキスト コンテンツとは別に、HTML ファイルに関するメタデータをトークン化された形式で格納する属性があります。
  • StandardAnalyzer を使用して、インデックス作成前のトークン化プロセス中に電子メール、Web サイト リンクなどの特定のトークンをそのまま保持しました。
  • インデックスを検索すると、返されたヒットには、条件に一致する HTML ファイルのメタデータが含まれていました。そのため、特定の検索結果に対して表示される HTML コンテンツを特定することができました。

HTH。

于 2012-10-04T04:43:53.107 に答える