r - pdftools::pdf_text がすべてのスペースを認識しない

翻译自：https://stackoverflow.com/questions/69875993 2021-11-07T19:47:02.713

53 次

私は R を使用しており、pdf ファイルからバイアスロンの結果を抽出しています。このプロセスの最初に、ほとんどの場合正常に機能している pdf_text 関数 (pdftools パッケージから) を使用してきました。ただし、一部のスペースが消えているように見えるファイルがあります。次に例を示します。

# install.packages("pdftools")
library(pdftools)

test<-pdf_text("https://ibu.blob.core.windows.net/docs/2021/BT/SWRL/CP01/SMIN/C77A_v1.pdf")
test[[1]]

PDF ファイルからの抜粋は、動作の良い (緑) スポットと動作の悪い (赤) スポットを示しています。

緑のものは「70 0」に変換されますが、赤のものは「70」に変換されます。コピーしてテキストエディタに貼り付けることで、両方にスペースがあることを確認できます。ざっと見てみると、最初の数字 (撮影時間のランク) が 1 桁しかない場合に問題が発生することがわかります。

この動作の原因は何ですか?簡単な修正方法はありますか?

r - pdftools::pdf_text がすべてのスペースを認識しない

0 に答える 0

Related

Reference