カスタム検索エンジンを備えた jsp Web アプリケーションがあります。
検索エンジンは、基本的に SQL Server データベースの「ドキュメント」テーブルの上に構築されています。
たとえば、各ドキュメント レコードには次の 3 つのフィールドがあります。
- ドキュメント ID
- '説明' (テキスト フィールド)
- 「添付ファイル」、ファイル システム内の pdf ファイルのパス。
検索エンジンは実際に説明フィールドのキーワードを検索し、結果リストを HTML ページに返します。今、PDFファイルのコンテンツでもキーワードを検索したいです。
Lucene、Tika、Solr について調査していますが、これらのフレームワークを目的に使用する方法がわかりません。
考えられる解決策の 1 つは、Tika を使用して PDF コンテンツを抽出し、新しいドキュメント テーブル フィールドに格納して、このフィールドに SQL クエリを記述できるようにすることです。
より良い代替手段はありますか?Solr/Lucene のインデックス作成機能を、SQL ベースの検索エンジンの完全な代替としてではなく、統合として使用できますか?
ありがとう