lucene - Tika でストリーム (リーダー) を解析し、同時に Lucene でインデックス化する

翻译自：https://stackoverflow.com/questions/14977052 2013-02-20T10:04:06.427

547 次

私はドキュメントを読んでいますが、Tika でストリームを解析し、メタデータ + コンテンツを取得して Lucene でインデックスを作成するために、ストリームを 2 回読み取らない可能性があるかどうか疑問に思いますか?

ファイルが大きすぎる可能性があるため、解析後にファイルをメモリに保存することは避けたいと思います。

次のリンクを読んでいますが、解析されたドキュメントの内容がメモリに保持されているようです - http://johnreece.com/wordpress/2011/03/13/a-concise-tikalucene-content-parsing-and-indexing-example /

（さらに、メモリを消費する必要があるため、Lucene がそれを作成せずにTextField処理することを確認したいと思います）ReaderString

0 に答える 0