1

索引付けして照会したい文書 (主に PDF) が多数あります。

これらすべてのドキュメントを年ごとにファイルシステム構造に保存したいと考えています。

現在、Solrでこのセットアップを行っています。しかし、スクリプトを実行して PDF からメタを抽出し、インデックスを更新する必要があります。

基本的に、新しい PDF をフォルダーにポップして、Solr によって自動インデックス付けできる製品はありますか。

私は Alfresco がこれを行うのを見てきましたが、いくつかの欠点があります - これらの線に沿って他に何かありますか?

それとも、nutch を使用してファイルシステムをクロールし、更新を Solr に投稿しますか? どうすればいいのかわかりませんか?

4

1 に答える 1

2

Solr はクローラーではなく検索サーバーです。ご指摘のとおり、Nutch はこれを行うことができます (ナレッジベース ダンプのインデックス作成という同様のユースケースに使用しました)。

基本的に、フォルダー構造のルートをドキュメント ルートとして Web サーバーをホストします。次に、この Web サーバーでディレクトリの一覧表示を許可します。その後、Nutch はこのドキュメント ダンプのトップ レベルの URL をクロールできます。

Nutch でインデックスを作成したら、それを solr で公開することもできます。

于 2012-06-14T13:18:04.093 に答える