8

当社には何千もの PDF ドキュメントがあります。Lucene、Solr、または Nutch を使用して単純な検索エンジンを作成するにはどうすればよいでしょうか? 基本的な Java/JSP Web ページを提供します。ユーザーは単語を入力して基本的なクエリを実行し、一致するすべての PDF のドキュメント リンクを表示できます。

4

10 に答える 10

8

luceneは幸運でしたが、クリック、インストール、検索ではなく、少し作業が必要です。
ダウンロードしてインストールし、10分以内に検索できるものが必要な場合は、無料のOminifind Yahoo Edition http://omnifind.ibm.yahoo.net/を参照してください。これは、Luceneを使用しますが、構成され、インストール時に実行する準備ができており、Luceneを試すためのはるかに簡単な方法です。

于 2008-10-21T22:06:44.463 に答える
6

Nutch で有効になっている Nutch + Lucene + Pdf プラグインがソリューションです。Nutch では、pdf プラグインを有効にすることで、pdf を解析できます。

Lucene では、クロールおよび解析されたデータのインデックスを作成できます。Nutch には、検索インターフェイスを提供するサーブレットがあります。

内部LANにも同じものを使用しています。

于 2009-06-12T18:22:52.160 に答える
3

LuceneファミリーのプロジェクトはどれもPDFをネイティブに処理できませんが、ドロップインできるユーティリティと、独自のプロジェクトを作成する方法についてのよく書かれた例があります。

Luceneは必要なことはほとんど何でもしますが、Tonyが上で述べたように、時間の面でオーバーヘッドがあります。何千ものドキュメントは実際にはそれほど多くないので、より軽量の代替手段で逃げることができるかもしれません。

そうは言っても、Solrを検討することをお勧めします-Luceneよりもセットアップがはるかに簡単で、バックアップやレプリケーションなどをサポートしているだけでなく、ユースケースに非常によく適合する気の利いたJSONインターフェースを備えています:http: //wiki.apache.org/solr/SolJSON

于 2008-12-17T02:39:03.313 に答える
3

PDFファイルを管理するシステムが必要だと思います。dspaceシステムを使用してみてください。Dspaceはデジタルライブラリであり、に基づいてLuceneをサポートします。www.dspace.org。

于 2008-12-17T03:10:47.197 に答える
3

Google 検索アプライアンスhttp://www.google.com/enterprise/gsa/

于 2008-10-21T21:41:47.507 に答える
2

eprintsを見てください。新しいドキュメントを追加するためのワークフローが含まれており、PDF のインデックスとサムネイルを自動的に作成し、かなり包括的な全文検索機能を備えています。また、簡単にカスタマイズしてブランド化することもできます。

車輪を再発明する理由。また。

于 2008-10-21T21:39:31.913 に答える
1

このフォーラムでこのような幅広い質問に答えるのは難しいでしょう。本Lucene in Actionチェックすることをお勧めします。これは、インデックス作成と検索の基本を非常に読みやすい方法でカバーしています。

アプリケーションを考えると、Nutch と Solr はおそらく必要ないように思えます。ドキュメントはすべてローカルで入手できるため、Nutch はおそらく役に立たないでしょう。Solr は、クエリの負荷が高い場合にサーチャーのクラスターを管理するのに役立ちますが、Lucene はパフォーマンスが高く、非常にスケーラブルな方法で大規模なドキュメント セットを処理します。

多くの労力を費やす可能性のある領域の 1 つは、PDF の使用です。PDF ドキュメントのインデックスを作成することは可能であり、PDF からの生テキストの抽出を容易にする Lucene の貢献がありますが、ドキュメントによっては、結果の品質が異なる場合があります。多くの場合、PDF ドキュメント内のキーワードのコンテキストは、書式設定の指示のために不明確であり、近接検索を実行したり、ヒットのコンテキストを表示したりすることが困難になる可能性があります。

于 2008-10-21T21:32:56.043 に答える
1

参考になる優れた無料検索テクノロジーは、IBM Yahoo! 無料検索。彼らが Lucene を秘密裏に使用する計画を実行したかどうかはわかりませんが、無料の検索テクノロジを使用する東側の非常に優れたテクノロジの 1 つとして残っています。最大 500K のドキュメントを処理し、PDF やその他の非テキスト形式もサポートしていると思います。グラフィック ユーザー インターフェイス。簡単に検索結果をカスタマイズでき、基本的な検索分析を行うことができます。基本的なシソーラスと強力な API により、すぐに使用できる結果が気に入らない場合でも、ほとんど何でも実行できます。ドキュメント数が 50 万未満の多くのクライアントにこれを提案しましたが、彼らは気に入っています。

于 2009-08-24T07:16:59.747 に答える
0

Linuxサーバーを使用している場合は、Beagleを使用してインデックスを作成し、それに付属する検索機能を使用することができます。(実験的な)Web検索インターフェースを備えており、FireFox検索ボックスに接続することもできます。

含まれているファイルに自動的にインデックスが付けられます。Luceneに独自の検索インターフェースを作成するよりも、ビーグル犬を拡張または修正する方がはるかに効率的であることがわかると思います。

于 2008-10-21T21:27:50.047 に答える
-4

Mac上にあるという(私見ですが)明確な利点があるため、私はやや古いG5でSearchLightを使用しています。Mac OS のビルトイン インデックス サービスであるスポットライトを当てるための優れた Web インターフェイスです。

于 2008-10-21T21:40:42.113 に答える