Rのタブライザーパッケージで練習しており、次の問題があります。残念ながら、pdf は会社の所有物であるため、再現可能な例を提供することはできませんが、問題について詳しく説明します。
右上隅に開始日と終了日がある PDF を読み込もうとしています。PDFを開くと普通に見える
Start: 01-Mar-2018
End: 31-Mar-2018
今楽しい部分。それらを強調表示し、Ctrl+C を使用してここにコピーすると、R に貼り付けたときの結果になります。
:tttt: 11-rrr-8118
tt:: 11-rrr-8118
extract_text(path, pages=1)これは、与えるのとまったく同じ種類のナンセンスです。多くの t::ttttt:ttt... 私の質問は、この PDF に何らかのセキュリティがあるか、正しいエンコーディングを把握する必要があるか、またはこの PDF がシステムから自動的に作成されるため、すべてに奇妙な表記法があることです。 ?