問題タブ [pdf-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - rでdplyrを使用してプレーンテキストをデータフレームに変換する
pdftools と tidyverse を使用して pdf からスクレイピングしたプレーン テキストをデータ フレームに変換する r を使用しようとしています。tidyverse パッケージを使用したソリューションを期待しています。次のコードを使用して、重要な情報を含む文字列のリストを取得しました。
これにより、次の形式の文字列の 26 個のリストの次のリストが生成されます。
サブリストの行 1 と 3 の先頭にある状態名と、変数名内のスペースに注意してください。各州は 1 行である必要があります。変数 1 変数 2 変数 3 変数 4 変数 5 変数 6 の 6 つの列があり、対応する値が順番に並んでいます。
このテーブルを作成する方法の解決策はありますか?
r - tabulizer パッケージで extract_tables() 関数を使用する際の問題:
PDF からテーブルをスクレイピングしようとしていますが、Web ブラウザーからではなくローカル ディレクトリからテーブルをスクレイピングしようとしています (ブラウザーに直接開かれていないため)。それでも、pdfをローカルディレクトリにダウンロードし、そこからテーブルのみを読み取ろうとしています!
コードを実行すると:
インターネット上のどこにも見つからない次のエラーが表示されます。
この問題を解決する方法はありますか?
スクレイピング.pdf
しようとしている は、このWeb サイトから自分のコンピューターにダウンロードされています。
レポートにはタイトルが付けられており、ページの右側のリンクを使用してダウンロードできます。ICNARC COVID-19 report 2020-05-29.pdf
以下はtraceback()
、エラー メッセージを受け取った後の出力です。
これをsessionInfo()
返します:
助けてくれてありがとう!