lucene.net - lucene.net を使用して .txt、.pdf、.doc などのファイルをインデックス化する方法は?

Question

私は Lucene .net を初めて使用します。lucene.net を使用して .txt、.pdf、.doc などのファイルのインデックスを作成する方法と、lucene.net を使用してインデックスを作成できるすべてのファイルを教えてください。

score 2 · Accepted Answer

Lucene.net は、特定のファイルのインデックス作成に依存しません。ファイルのインデックスは自分で作成する必要があります。

IFilters を使用してドキュメント内のテキストを抽出し、Lucene.net を使用して検索インデックスを作成します。

IFilters と lucene.net の使用に関する複数の記事については、codeproject.com を検索できます。

score 0 · Accepted Answer

ファイルにインデックスを付ける前に、適切な方法でファイルからテキストを抽出する必要があります。Lucene または Lucene.net はそれを行いません。テキスト抽出には、Windows で IFilter を使用できます。IFilters は安定していない可能性があり、スレッドの問題がある COM を使用する必要があります。さらに、さまざまなバージョンのドキュメントでさまざまな ifilter を使用するのは非常に面倒です。

http://www.codeproject.com/Articles/13391/Using-IFilter-in-C

www.ifilter.org

テキスト抽出には商用の代替手段がありますが、それらは非常に高価です。

http://www.isys-search.com/products/document-filters

http://www.oracle.com/us/technologies/embedded/025613.htm

Apache Tika は、商用の優れたオープンソースの代替手段です。それはJavaにあります。

http://tika.apache.org/

Lucene.net の代わりに、優れたSolr .NET クライアントで Apache Solr/Luceneを使用することを強くお勧めします。Solr には、やりたいことを実現する Tika 統合が組み込まれています。Solr を使用するために Java の知識は必要ありません。これは、軽量のアプリケーションサーバーで実行できるスタンドアロンの Web サービスです。

Lucene.Net を使用してドキュメント検索ソリューションを構築すると、Solr で既に対処されている多くの問題が発生します。

http://www.lucidimagination.com/devzone/technical-articles/content-extraction-tika

http://wiki.apache.org/solr/ExtractingRequestHandler

ここで Lucene と Solr についての良い議論があります。

検索エンジン - Lucene または Solr

lucene.net - lucene.net を使用して .txt、.pdf、.doc などのファイルをインデックス化する方法は?

2 に答える 2

Related

Reference