r - Rで2列のPDFからテキストをうまく抽出する

翻译自：https://stackoverflow.com/questions/63955427 2020-09-18T12:03:24.810

146 次

企業の年次報告書のテキストを抽出しようとしています。そのデザインは 2 つの列の大部分にあります。pdftools パッケージを使用した RI では、最初の列の 2 行目の代わりに、2 列目の最初の行の隣にある 1 列目の最初の行を抽出するため、正しく抽出する方法がわかりません。

これは私のコードです:

library(pdftools)
readpdf<- pdf_text("https://www.telefonica.com/documents/153952/13347920/2019-Telefonica-Consolidated-Management-Report.pdf/0a9c8382-c9ff-ba52-1d5b-e431a7efab3f")

どうすればこれを正しく行うことができますか?

r - Rで2列のPDFからテキストをうまく抽出する

1 に答える 1

Related

Reference