クライアントから提供されたインデックス ファイルがあり、重複したドキュメントを削除してそれらを再インデックスしたいと考えています。
このために、インデックスからデータを読み取り、XMLファイルまたはCSVファイルを生成してから、重複を排除してインデックスを作成する必要があります。
(間違っている場合は修正してください。これを行う他の方法が見つかりませんでした)
Luceneを使用してこれが可能であることは知っていますが、solrを使用してこれを行う方法を知りたいと思いました
Solrクエリでwt
パラメータをxml
に設定することで、エクスポート形式を変更できます。...&wt=xml
これにより、結果がxmlにエクスポートされます。したがって、*を検索すると、limit
パラメータに応じて完全なコンテンツが表示されます。
http://wiki.apache.org/solr/CoreQueryParameters#wt
これはcsvでも機能します:http ://wiki.apache.org/solr/CSVResponseWriter