問題タブ [pdftools]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Rで2列のPDFからテキストをうまく抽出する
企業の年次報告書のテキストを抽出しようとしています。そのデザインは 2 つの列の大部分にあります。pdftools パッケージを使用した RI では、最初の列の 2 行目の代わりに、2 列目の最初の行の隣にある 1 列目の最初の行を抽出するため、正しく抽出する方法がわかりません。
これは私のコードです:
どうすればこれを正しく行うことができますか?
r - Rでダウンロードしたpdfデータセットをクリーニングする
このサイト([テーブル] タブ) からpdf ファイルをダウンロードし、R のデータセットをクリーンアップして、csv または Excel ファイルに変換したいと考えています。
私は pdftools パッケージを使用しており、他の必要なパッケージをダウンロードしました。年代別のデータに注目したい。これまでのところ、これらのコードを使用してデータセットを絞り込みました。
ただし、取得しているデータ フレームには、1 つの変数にすべてが含まれています。データセットを効率的に分割し、年齢層ごとに異なる列を作成する方法はありますか? サイトから pdf ファイルをダウンロードし、agegr_1-4-21.pdf という名前を付けました。
私が得ている出力は