問題タブ [pdftools]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

79 問題

0 投票する

1 に答える

146 参照

r - Rで2列のPDFからテキストをうまく抽出する

企業の年次報告書のテキストを抽出しようとしています。そのデザインは 2 つの列の大部分にあります。pdftools パッケージを使用した RI では、最初の列の 2 行目の代わりに、2 列目の最初の行の隣にある 1 列目の最初の行を抽出するため、正しく抽出する方法がわかりません。

これは私のコードです:

どうすればこれを正しく行うことができますか?

r pdf text-mining pdftools

2020-09-18T12:03:24.810

0 投票する

1 に答える

116 参照

r - Rでダウンロードしたpdfデータセットをクリーニングする

このサイト([テーブル] タブ) からpdf ファイルをダウンロードし、R のデータセットをクリーンアップして、csv または Excel ファイルに変換したいと考えています。

私は pdftools パッケージを使用しており、他の必要なパッケージをダウンロードしました。年代別のデータに注目したい。これまでのところ、これらのコードを使用してデータセットを絞り込みました。

ただし、取得しているデータフレームには、1 つの変数にすべてが含まれています。データセットを効率的に分割し、年齢層ごとに異なる列を作成する方法はありますか? サイトから pdf ファイルをダウンロードし、agegr_1-4-21.pdf という名前を付けました。

私が得ている出力は

r pdftools

2021-01-16T11:50:31.123

1 2 3 4 5 6 7 8 9 10

問題タブ [pdftools]

r - Rで2列のPDFからテキストをうまく抽出する

r - Rでダウンロードしたpdfデータセットをクリーニングする

Reference