solr - Solr インデックスドキュメントを抽出する方法

Question

solr でインデックスを作成する前に、ドキュメントにいくつかの変換を行う必要があります。しかし、テキストはさまざまなリソースから来ており、ファイルを解析するためにいくつかのプログラムを適応させる必要があるため、インデックスを作成する前に変換を行うのは困難です。それらをsolrでインデックス付けし、テキストフィールドを抽出し、変換を行い、再度インデックス付けすることを考えています。

私は試した：

curl 'http://localhost:8983/solr/collection1/select?q=*&rows=20000&wt=xml&indent=true'

しかし、投稿形式のようなフィールドを含むドキュメントを抽出する方法を探している間、出力は結果のxmlファイルです。これは可能ですか？どうすればいいですか？

ありがとう

score 0 · Accepted Answer

Solr の統合ページにリストされている Solr クライアントのいずれかを使用することをお勧めします。これにより、選択したプログラミング言語を使用して Solr ドキュメントを抽出および変換し、インデックスに再ロードできます。

solr - Solr インデックス ドキュメントを抽出する方法

1 に答える 1

Related

Reference

solr - Solr インデックスドキュメントを抽出する方法