私はSolrの素晴らしい世界に比較的慣れていないので、次の質問があります。ドキュメント構造を抽出し、インデックス作成のために Solr に渡すという点で、ドキュメントを処理する最良の方法は何ですか。
Word Docs、PDF、スプレッドシート、HTMLページなどからテキストを抽出できるようにしたいと考えています。実際、テキストを含むほぼすべてのドキュメントです。
Windows フィルターを調べてみましたが、一見したところ、必要な機能を提供しているように見えます。
これはあなたがそれを行う方法ですか?
シム