solr - Solrのインターフェース

Question

索引付けして照会したい文書 (主に PDF) が多数あります。

これらすべてのドキュメントを年ごとにファイルシステム構造に保存したいと考えています。

現在、Solrでこのセットアップを行っています。しかし、スクリプトを実行して PDF からメタを抽出し、インデックスを更新する必要があります。

基本的に、新しい PDF をフォルダーにポップして、Solr によって自動インデックス付けできる製品はありますか。

私は Alfresco がこれを行うのを見てきましたが、いくつかの欠点があります - これらの線に沿って他に何かありますか?

それとも、nutch を使用してファイルシステムをクロールし、更新を Solr に投稿しますか? どうすればいいのかわかりませんか？

score 2 · Accepted Answer

Solr はクローラーではなく検索サーバーです。ご指摘のとおり、Nutch はこれを行うことができます (ナレッジベースダンプのインデックス作成という同様のユースケースに使用しました)。

基本的に、フォルダー構造のルートをドキュメントルートとして Web サーバーをホストします。次に、この Web サーバーでディレクトリの一覧表示を許可します。その後、Nutch はこのドキュメントダンプのトップレベルの URL をクロールできます。

1 に答える 1