私の質問は、入力ドキュメントで検索された単語のページ番号を表示したいこのアクティビティの続きです。
だから私は使う
1) tika-0.9.jarを実行して、出力を中間ファイルとして抽出します。
2) 次に、抽出された出力が入力である別の XML を作成し、Solr が期待する形式でデータを書き込み、post.jarコマンドを使用してこの xml を投稿します。
3) Solr 3.2バージョン ( http://localhost:8983/solr/browse ) でSolritas Serach UIを使用して結果を表示します。
結果とともにページ番号を表示したいと思います。
例 :
入力PDFで単語テストを検索すると、これまでに管理したことは、この結果を含むドキュメントのすべてのセットを表示し、ドキュメントをクリックすると入力PDFが開きます。各入力ドキュメントに「テスト」という単語が含まれているページ番号を表示したいと思います。
ページ番号をインデックスに保存する方法でこれを行うことができるかどうかなど、いくつかの提案をお願いします。
あなたの提案は大歓迎です。
ありがとうございます。