solr でインデックスを作成する前に、ドキュメントにいくつかの変換を行う必要があります。しかし、テキストはさまざまなリソースから来ており、ファイルを解析するためにいくつかのプログラムを適応させる必要があるため、インデックスを作成する前に変換を行うのは困難です。それらをsolrでインデックス付けし、テキストフィールドを抽出し、変換を行い、再度インデックス付けすることを考えています。
私は試した :
curl 'http://localhost:8983/solr/collection1/select?q=*&rows=20000&wt=xml&indent=true'
しかし、投稿形式のようなフィールドを含むドキュメントを抽出する方法を探している間、出力は結果のxmlファイルです。これは可能ですか?どうすればいいですか?
ありがとう