2

私はSolrの調査段階にありますが、これまでのところ、非構造化テキストファイルにインデックスを付けるには、Tikaを使用してXMLに変換する必要があるようです。これは本当ですか?Luceneが変換なしで任意のテキストをトークン化してインデックス付けできるのは奇妙だと思いましたが、SolrはXMLに変換するこの追加の手順を必要とします。多分何かが足りないと思った。

私は1日あたり数百万のファイルと数百GBのほぼリアルタイムの全文検索を調べているので、余分なTika変換は面倒です。

4

2 に答える 2

2

回答ありがとうございます。@javanna私の質問は、「入力を何らかの方法で前処理する必要なしに」と尋ねたほうがよいでしょう。あまりにも多くの人があまりにも速く入ってくる、彼らは大きすぎる、そしてスピードが重要です。@Okleinがあなたが言及したDIHを調査しているとき、私はこの文書に出くわしました:

http://www.lucidimagination.com/sites/default/files/file/whitepaper/LIWP_IndexingTextandHTMLFilesWithSolr.pdf

基本的に私が追求している答えは、ExtractingRequestHandlerを使用してプレーンテキストファイルを処理し、その場でフィールドを追加することです。現在、GETパラメーターを使用してフィールドを追加できるcURLを使用しており、SolrJを使用して同等の処理を実行します。

http://wiki.apache.org/solr/ExtractingRequestHandler#SolrJ

于 2012-08-07T15:01:10.387 に答える
1

DIHのPlainTextEntityProcessorをチェックしてください

于 2012-08-04T12:27:43.027 に答える