私は SOLR と協力して、主に MS Word、Powerpoint、Excel、PDF などの豊富なドキュメント (約 40,000 アイテム) をインポートするプロジェクトに取り組んでいます。
を使用する場合、ベスト プラクティスschema.xml
および/またはsolrconfig.xml
SOLR で使用する方法はありExtractingRequestHandler
ますか?
私はデフォルトのスキーマを微調整して、ファセットを日付変更時間で機能させようとしましたが、それがなくても、Tika からのデフォルトの出力で十分な場合にこれらのファイルがどのように動作するかを示す良い例が十分に存在する可能性があると思います。
ベスト プラクティスのようなものが存在しない場合、schema.xml
および/またはsolrconfig.xml
、できれば既存のオープン ソース プロジェクトや優れたブログ投稿からの良い例にも興味があります。
どんなポインタでも大歓迎です!