いくつかの PDF ファイルからテキスト コンテンツを抽出した後、tika がドキュメントのテキストの位置をずらしたことに気付きました。たとえば、元の PDF ドキュメントは次のようになります。
Animal name: Cat
Food stock: Avalaible
type: male
ティカを使用した後:
cat
Animal name:
Available
Food stock:
male
type:
空白を保持するようにtikaに指示するにはどうすればよいですか?.