問題タブ [pdftools]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
146 参照

r - Rで2列のPDFからテキストをうまく抽出する

企業の年次報告書のテキストを抽出しようとしています。そのデザインは 2 つの列の大部分にあります。pdftools パッケージを使用した RI では、最初の列の 2 行目の代わりに、2 列目の最初の行の隣にある 1 列目の最初の行を抽出するため、正しく抽出する方法がわかりません。

これは私のコードです:

どうすればこれを正しく行うことができますか?

0 投票する
1 に答える
116 参照

r - Rでダウンロードしたpdfデータセットをクリーニングする

このサイト([テーブル] タブ) からpdf ファイルをダウンロードし、R のデータセットをクリーンアップして、csv または Excel ファイルに変換したいと考えています。

私は pdftools パッケージを使用しており、他の必要なパッケージをダウンロードしました。年代別のデータに注目したい。これまでのところ、これらのコードを使用してデータセットを絞り込みました。

ただし、取得しているデータ フレームには、1 つの変数にすべてが含まれています。データセットを効率的に分割し、年齢層ごとに異なる列を作成する方法はありますか? サイトから pdf ファイルをダウンロードし、agegr_1-4-21.pdf という名前を付けました。

私が得ている出力は

ここに画像の説明を入力