3

PDFまたはWordドキュメントのインデックスを作成するようにSitecoreのLucene検索エンジンを構成できるかどうかを知りたいですか?このドキュメント( http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf )でSitecoreサポートサイトを調べましたが、ファイルクローラークラスの作成について言及しています。これを実現するには、カスタムコードを作成する必要があります。これを行うためにカスタムコードを作成する必要がある場合、PDFドキュメントからテキストコンテンツを抽出するためにAPIも必要ですか?

4

1 に答える 1

3

私は最近、私のプロジェクトの1つで同様のことをしなければなりませんでした。Lucene.NETを使用してWord2003、2007、および2010ドキュメントのインデックスを作成する方法をご覧ください。

最終的に、MS Officeドキュメント(XP、2003、2007、および2010形式)とPDFドキュメントを処理するカスタムインデクサーを作成しました。

注: Adobe PDF IFilterで時間を無駄にしないでください。有効なPDFファイルの読み取りに失敗し、処理速度が大幅に低下します。Foxit IFilterは、マルチコアCPUを利用するように設計されており、大きなドキュメントではるかに優れたパフォーマンスを発揮します。

于 2011-07-05T16:57:38.270 に答える