PDFまたはWordドキュメントのインデックスを作成するようにSitecoreのLucene検索エンジンを構成できるかどうかを知りたいですか?このドキュメント( http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf )でSitecoreサポートサイトを調べましたが、ファイルクローラークラスの作成について言及しています。これを実現するには、カスタムコードを作成する必要があります。これを行うためにカスタムコードを作成する必要がある場合、PDFドキュメントからテキストコンテンツを抽出するためにAPIも必要ですか?
質問する
3052 次
1 に答える
3
私は最近、私のプロジェクトの1つで同様のことをしなければなりませんでした。Lucene.NETを使用してWord2003、2007、および2010ドキュメントのインデックスを作成する方法をご覧ください。
最終的に、MS Officeドキュメント(XP、2003、2007、および2010形式)とPDFドキュメントを処理するカスタムインデクサーを作成しました。
- XP-2003 MS Officeドキュメントのインデックス作成
IFilter
には、OSに組み込まれているを使用できます(Windows Server 2003以降を使用している場合)。 - 2007〜2010年のMSOfficeドキュメントのインデックスを作成するには、 MicrosoftOffice2010フィルターパックをインストールする必要があります
- PDFドキュメントのインデックスを作成するには、FoxitPDFIFilterを使用することを強くお勧めします。これは無料ではありませんが、AdobePDFIFilterよりもはるかに優れています。
注: Adobe PDF IFilterで時間を無駄にしないでください。有効なPDFファイルの読み取りに失敗し、処理速度が大幅に低下します。Foxit IFilterは、マルチコアCPUを利用するように設計されており、大きなドキュメントではるかに優れたパフォーマンスを発揮します。
于 2011-07-05T16:57:38.270 に答える