3

私はドキュメントを読んでいますが、Tika でストリームを解析し、メタデータ + コンテンツを取得して Lucene でインデックスを作成するために、ストリームを 2 回読み取らない可能性があるかどうか疑問に思いますか?

ファイルが大きすぎる可能性があるため、解析後にファイルをメモリに保存することは避けたいと思います。

次のリンクを読んでいますが、解析されたドキュメントの内容がメモリに保持されているようです - http://johnreece.com/wordpress/2011/03/13/a-concise-tikalucene-content-parsing-and-indexing-example /

(おそらく、「Luceneフィールドをリーダーを介して保存およびストリーミングする方法」と何らかの形で関連している可能性があります)

(さらに、メモリを消費する必要があるため、Lucene がそれを作成せずにTextField処理することを確認したいと思います)ReaderString

4

0 に答える 0