私は Lucene .net を初めて使用します。lucene.net を使用して .txt、.pdf、.doc などのファイルのインデックスを作成する方法と、lucene.net を使用してインデックスを作成できるすべてのファイルを教えてください。
2 に答える
Lucene.net は、特定のファイルのインデックス作成に依存しません。ファイルのインデックスは自分で作成する必要があります。
IFilters を使用してドキュメント内のテキストを抽出し、Lucene.net を使用して検索インデックスを作成します。
IFilters と lucene.net の使用に関する複数の記事については、codeproject.com を検索できます。
ファイルにインデックスを付ける前に、適切な方法でファイルからテキストを抽出する必要があります。Lucene または Lucene.net はそれを行いません。テキスト抽出には、Windows で IFilter を使用できます。IFilters は安定していない可能性があり、スレッドの問題がある COM を使用する必要があります。さらに、さまざまなバージョンのドキュメントでさまざまな ifilter を使用するのは非常に面倒です。
http://www.codeproject.com/Articles/13391/Using-IFilter-in-C
www.ifilter.org
テキスト抽出には商用の代替手段がありますが、それらは非常に高価です。
http://www.isys-search.com/products/document-filters
http://www.oracle.com/us/technologies/embedded/025613.htm
Apache Tika は、商用の優れたオープン ソースの代替手段です。それはJavaにあります。
Lucene.net の代わりに、優れたSolr .NET クライアントでApache Solr/Luceneを使用することを強くお勧めします。Solr には、やりたいことを実現する Tika 統合が組み込まれています。Solr を使用するために Java の知識は必要ありません。これは、軽量のアプリケーション サーバーで実行できるスタンドアロンの Web サービスです。
Lucene.Net を使用してドキュメント検索ソリューションを構築すると、Solr で既に対処されている多くの問題が発生します。
http://www.lucidimagination.com/devzone/technical-articles/content-extraction-tika
http://wiki.apache.org/solr/ExtractingRequestHandler
ここで Lucene と Solr についての良い議論があります。