私は R を使用しており、pdf ファイルからバイアスロンの結果を抽出しています。このプロセスの最初に、ほとんどの場合正常に機能している pdf_text 関数 (pdftools パッケージから) を使用してきました。ただし、一部のスペースが消えているように見えるファイルがあります。次に例を示します。
# install.packages("pdftools")
library(pdftools)
test<-pdf_text("https://ibu.blob.core.windows.net/docs/2021/BT/SWRL/CP01/SMIN/C77A_v1.pdf")
test[[1]]
PDF ファイルからの抜粋は、動作の良い (緑) スポットと動作の悪い (赤) スポットを示しています。
緑のものは「70 0」に変換されますが、赤のものは「70」に変換されます。コピーしてテキストエディタに貼り付けることで、両方にスペースがあることを確認できます。ざっと見てみると、最初の数字 (撮影時間のランク) が 1 桁しかない場合に問題が発生することがわかります。
この動作の原因は何ですか?簡単な修正方法はありますか?