索引付けして照会したい文書 (主に PDF) が多数あります。
これらすべてのドキュメントを年ごとにファイルシステム構造に保存したいと考えています。
現在、Solrでこのセットアップを行っています。しかし、スクリプトを実行して PDF からメタを抽出し、インデックスを更新する必要があります。
基本的に、新しい PDF をフォルダーにポップして、Solr によって自動インデックス付けできる製品はありますか。
私は Alfresco がこれを行うのを見てきましたが、いくつかの欠点があります - これらの線に沿って他に何かありますか?
それとも、nutch を使用してファイルシステムをクロールし、更新を Solr に投稿しますか? どうすればいいのかわかりませんか?