c# - Solr および .Net フィルター

Question

私はSolrの素晴らしい世界に比較的慣れていないので、次の質問があります。ドキュメント構造を抽出し、インデックス作成のために Solr に渡すという点で、ドキュメントを処理する最良の方法は何ですか。

Word Docs、PDF、スプレッドシート、HTMLページなどからテキストを抽出できるようにしたいと考えています。実際、テキストを含むほぼすべてのドキュメントです。

Windows フィルターを調べてみましたが、一見したところ、必要な機能を提供しているように見えます。

これはあなたがそれを行う方法ですか？

シム

score 2 · Accepted Answer

Philip が言ったように、SolrCell は、これらのバイナリドキュメントタイプをインデックス化する標準的な方法です。ただし、SolrNetではまだサポートされていないため、オプションは次のとおりです。

score 2 · Accepted Answer

おそらく、 Solr Cellプロジェクトを見たいと思うでしょう。C# クライアントを使用していると仮定していますが、サーバーのすべてのコンテンツ抽出/マッピングを Java ツールで行う必要があるでしょう。

Solr Cell ページには、Word や PDF などのさまざまな形式からテキスト (および一部のメタデータ) を抽出するライブラリをラップできる Apache Tikaの使用方法が記載されています。

2 に答える 2