Solr (Lucidworks を使用) でインデックスを作成する必要がある、何千もの PDF ファイルの Web アクセス可能なファイル システムがあります。
それぞれに対応するデータを含む XML ファイルがあります。XML には、ID、単純なメタデータ、およびファイル システム内の対応する PDF の URL が含まれています。
現在、Solr が XML を読み取り、必要なすべてのメタデータ (PDF の URL を含む) のインデックスを作成できるように、XML をフォーマットできます。
Solr がファイルを解析しているときに、実際に URL をたどり、参照されている PDF データを XML 提供のメタデータと一緒にインデックス付けしてほしいと思います。これは可能ですか?