問題タブ [pdf-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
251 参照

r - rでdplyrを使用してプレーンテキストをデータフレームに変換する

pdftools と tidyverse を使用して pdf からスクレイピングしたプレーン テキストをデータ フレームに変換する r を使用しようとしています。tidyverse パッケージを使用したソリューションを期待しています。次のコードを使用して、重要な情報を含む文字列のリストを取得しました。

これにより、次の形式の文字列の 26 個のリストの次のリストが生成されます。

サブリストの行 1 と 3 の先頭にある状態名と、変数名内のスペースに注意してください。各州は 1 行である必要があります。変数 1 変数 2 変数 3 変数 4 変数 5 変数 6 の 6 つの列があり、対応する値が順番に並んでいます。

このテーブルを作成する方法の解決策はありますか?

0 投票する
1 に答える
852 参照

r - tabulizer パッケージで extract_tables() 関数を使用する際の問題:

PDF からテーブルをスクレイピングしようとしていますが、Web ブラウザーからではなくローカル ディレクトリからテーブルをスクレイピングしようとしています (ブラウザーに直接開かれていないため)。それでも、pdfをローカルディレクトリにダウンロードし、そこからテーブルのみを読み取ろうとしています!

コードを実行すると:

インターネット上のどこにも見つからない次のエラーが表示されます。

この問題を解決する方法はありますか?

スクレイピング.pdfしようとしている は、このWeb サイトから自分のコンピューターにダウンロードされています。 レポートにはタイトルが付けられており、ページの右側のリンクを使用してダウンロードできます。
ICNARC COVID-19 report 2020-05-29.pdf

以下はtraceback()、エラー メッセージを受け取った後の出力です。

これをsessionInfo()返します:

助けてくれてありがとう!

0 投票する
3 に答える
1333 参照

python - PDF からフォーマット付きの特定のテーブルを抽出することは可能ですか?

PDFから特定のテーブルを抽出しようとしています.PDFは下の画像のようになります

ここに画像の説明を入力

Pythonでさまざまなライブラリを試してみましたが、

tabula-py を使用

PyPDF2 で

テクスチャと美しいスープでも、私が直面している問題は、出力形式が混乱していることです。このテーブルをより良い形式で抽出する方法はありますか?