私はSolrの調査段階にありますが、これまでのところ、非構造化テキストファイルにインデックスを付けるには、Tikaを使用してXMLに変換する必要があるようです。これは本当ですか?Luceneが変換なしで任意のテキストをトークン化してインデックス付けできるのは奇妙だと思いましたが、SolrはXMLに変換するこの追加の手順を必要とします。多分何かが足りないと思った。
私は1日あたり数百万のファイルと数百GBのほぼリアルタイムの全文検索を調べているので、余分なTika変換は面倒です。
私はSolrの調査段階にありますが、これまでのところ、非構造化テキストファイルにインデックスを付けるには、Tikaを使用してXMLに変換する必要があるようです。これは本当ですか?Luceneが変換なしで任意のテキストをトークン化してインデックス付けできるのは奇妙だと思いましたが、SolrはXMLに変換するこの追加の手順を必要とします。多分何かが足りないと思った。
私は1日あたり数百万のファイルと数百GBのほぼリアルタイムの全文検索を調べているので、余分なTika変換は面倒です。
回答ありがとうございます。@javanna私の質問は、「入力を何らかの方法で前処理する必要なしに」と尋ねたほうがよいでしょう。あまりにも多くの人があまりにも速く入ってくる、彼らは大きすぎる、そしてスピードが重要です。@Okleinがあなたが言及したDIHを調査しているとき、私はこの文書に出くわしました:
基本的に私が追求している答えは、ExtractingRequestHandlerを使用してプレーンテキストファイルを処理し、その場でフィールドを追加することです。現在、GETパラメーターを使用してフィールドを追加できるcURLを使用しており、SolrJを使用して同等の処理を実行します。
DIHのPlainTextEntityProcessorをチェックしてください