solr - Solrは、Tikaを介して実行しなくても、プレーンテキストファイルにインデックスを付けることができますか？

Question

私はSolrの調査段階にありますが、これまでのところ、非構造化テキストファイルにインデックスを付けるには、Tikaを使用してXMLに変換する必要があるようです。これは本当ですか？Luceneが変換なしで任意のテキストをトークン化してインデックス付けできるのは奇妙だと思いましたが、SolrはXMLに変換するこの追加の手順を必要とします。多分何かが足りないと思った。

私は1日あたり数百万のファイルと数百GBのほぼリアルタイムの全文検索を調べているので、余分なTika変換は面倒です。

score 2 · Accepted Answer

回答ありがとうございます。@javanna私の質問は、「入力を何らかの方法で前処理する必要なしに」と尋ねたほうがよいでしょう。あまりにも多くの人があまりにも速く入ってくる、彼らは大きすぎる、そしてスピードが重要です。@Okleinがあなたが言及したDIHを調査しているとき、私はこの文書に出くわしました：

http://www.lucidimagination.com/sites/default/files/file/whitepaper/LIWP_IndexingTextandHTMLFilesWithSolr.pdf

基本的に私が追求している答えは、ExtractingRequestHandlerを使用してプレーンテキストファイルを処理し、その場でフィールドを追加することです。現在、GETパラメーターを使用してフィールドを追加できるcURLを使用しており、SolrJを使用して同等の処理を実行します。

http://wiki.apache.org/solr/ExtractingRequestHandler#SolrJ

score 1 · Accepted Answer

1

DIHのPlainTextEntityProcessorをチェックしてください

于 2012-08-04T12:27:43.027 に答える

solr - Solrは、Tikaを介して実行しなくても、プレーンテキストファイルにインデックスを付けることができますか？

2 に答える 2

Related

Reference