5

私は SOLR と協力して、主に MS Word、Powerpoint、Excel、PDF などの豊富なドキュメント (約 40,000 アイテム) をインポートするプロジェクトに取り組んでいます。

を使用する場合、ベスト プラクティスschema.xmlおよび/またはsolrconfig.xmlSOLR で使用する方法はありExtractingRequestHandlerますか?

私はデフォルトのスキーマを微調整して、ファセットを日付変更時間で機能させようとしましたが、それがなくても、Tika からのデフォルトの出力で十分な場合にこれらのファイルがどのように動作するかを示す良い例が十分に存在する可能性があると思います。

ベスト プラクティスのようなものが存在しない場合、schema.xmlおよび/またはsolrconfig.xml、できれば既存のオープン ソース プロジェクトや優れたブログ投稿からの良い例にも興味があります。

どんなポインタでも大歓迎です!

4

1 に答える 1

0

書籍 Taming Text (http://www.manning.com/ingersoll/) には、ExtractingRequestHandler への参照があります。この本は、solr、tika、lucene などのオープン ソース ツールを使用したテキスト処理に関するものです。

私は第5章まで読んだことがありますが、今までこの本では、さまざまなタイプのフィールドを作成するためにschema.xmlファイルを変更し、クエリまたはインデックス作成で処理することにより、solr機能を拡張する方法を説明しています。

于 2011-12-09T14:04:25.183 に答える