1

Rのタブライザーパッケージで練習しており、次の問題があります。残念ながら、pdf は会社の所有物であるため、再現可能な例を提供することはできませんが、問題について詳しく説明します。

右上隅に開始日と終了日がある PDF を読み込もうとしています。PDFを開くと普通に見える

Start: 01-Mar-2018
  End: 31-Mar-2018

今楽しい部分。それらを強調表示し、Ctrl+C を使用してここにコピーすると、R に貼り付けたときの結果になります。

:tttt: 11-rrr-8118
tt:: 11-rrr-8118

extract_text(path, pages=1)これは、与えるのとまったく同じ種類のナンセンスです。多くの t::ttttt:ttt... 私の質問は、この PDF に何らかのセキュリティがあるか、正しいエンコーディングを把握する必要があるか、またはこの PDF がシステムから自動的に作成されるため、すべてに奇妙な表記法があることです。 ?

4

1 に答える 1