c# - PDFまたはWordドキュメントでのSitecoreテキスト検索

Question

PDFまたはWordドキュメントのインデックスを作成するようにSitecoreのLucene検索エンジンを構成できるかどうかを知りたいですか？このドキュメント（ http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf ）でSitecoreサポートサイトを調べましたが、ファイルクローラークラスの作成について言及しています。これを実現するには、カスタムコードを作成する必要があります。これを行うためにカスタムコードを作成する必要がある場合、PDFドキュメントからテキストコンテンツを抽出するためにAPIも必要ですか？

score 3 · Accepted Answer

私は最近、私のプロジェクトの1つで同様のことをしなければなりませんでした。Lucene.NETを使用してWord2003、2007、および2010ドキュメントのインデックスを作成する方法をご覧ください。

最終的に、MS Officeドキュメント（XP、2003、2007、および2010形式）とPDFドキュメントを処理するカスタムインデクサーを作成しました。

XP-2003 MS Officeドキュメントのインデックス作成IFilterには、OSに組み込まれているを使用できます（Windows Server 2003以降を使用している場合）。
2007〜2010年のMSOfficeドキュメントのインデックスを作成するには、 MicrosoftOffice2010フィルターパックをインストールする必要があります
PDFドキュメントのインデックスを作成するには、FoxitPDFIFilterを使用することを強くお勧めします。これは無料ではありませんが、AdobePDFIFilterよりもはるかに優れています。

注： Adobe PDF IFilterで時間を無駄にしないでください。有効なPDFファイルの読み取りに失敗し、処理速度が大幅に低下します。Foxit IFilterは、マルチコアCPUを利用するように設計されており、大きなドキュメントではるかに優れたパフォーマンスを発揮します。

c# - PDFまたはWordドキュメントでのSitecoreテキスト検索

1 に答える 1

Related

Reference