3

私はSolrの素晴らしい世界に比較的慣れていないので、次の質問があります。ドキュメント構造を抽出し、インデックス作成のために Solr に渡すという点で、ドキュメントを処理する最良の方法は何ですか。

Word Docs、PDF、スプレッドシート、HTMLページなどからテキストを抽出できるようにしたいと考えています。実際、テキストを含むほぼすべてのドキュメントです。

Windows フィルターを調べてみましたが、一見したところ、必要な機能を提供しているように見えます。

これはあなたがそれを行う方法ですか?

シム

4

2 に答える 2

2

Philip が言ったように、SolrCell は、これらのバイナリ ドキュメント タイプをインデックス化する標準的な方法です。ただし、SolrNetではまだサポートされていないため、オプションは次のとおりです。

  1. それを実装してプロジェクトに貢献する、または
  2. それを回避し、独自の http リクエストを作成して Solr に送信し、その特定の機能について SolrNet を回避します。

また、一部のユーザーは、パフォーマンスの問題により、SolrCell の代わりに iTextSharp/Aspose を好みました。

于 2010-09-22T14:54:08.810 に答える
2

おそらく、 Solr Cellプロジェクトを見たいと思うでしょう。C# クライアントを使用していると仮定していますが、サーバーのすべてのコンテンツ抽出/マッピングを Java ツールで行う必要があるでしょう。

Solr Cell ページには、Word や PDF などのさまざまな形式からテキスト (および一部のメタデータ) を抽出するライブラリをラップできる Apache Tikaの使用方法が記載されています。

于 2010-09-22T13:32:50.957 に答える