問題タブ [pdf-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
395 参照

c# - Https SSL ログインと PDF ダウンロード

この問題のヘルプを書いています。当社のサプライヤーのサイトに接続し、請求書を PDF で自動的にダウンロードしてください。私はいくつかの方法を試しました:

1: Web ブラウザ - PDF へのリンクがあるページにアクセスできますが、ディスクに保存できません (新しいウィンドウで開きます) (PDF はオンザフライで生成され、このタイプのものですhttps://www.axxes.fr/it/client/pge1_relevefacturepdf.aspx?selnumdoc=700051126&typ=DUP&lng=ES&famdoc=DUP&typfic=PDF) 。

2:Watin - Webbrowserのようにpdfを自動保存できない

3: HttpWebRequest - ログインできません。これは私が使用するコードです:

サプライヤーのサイトはhttps://www.axxes.fr/it/です 。認証モジュールは次のとおりです。

Fiddler を使用して、ナビゲーション ブラウザーのトラフィックを分析しようとしましたが、その理由は次のとおりです。

1

2

3

私が投稿したコードは、CGI への要求にすぎません。アクセス方法が正直わかりません。何かが足りないようです..クッキー?それを管理する方法は?ヒントはありますか?

何か案が?もう一度サンクス

0 投票する
3 に答える
24442 参照

c# - PDF ファイルの解析

ファイルの内容に基づいて、大きな PDF ドキュメントを小さなファイルに分割する必要があります。BCL easyPDF を使用して PDF ファイルを操作します。easyPDF は、ページ番号に基づいて PDF ドキュメントを分割できますが、ファイルの内容に基づいてドキュメントを分割することはできません。また、コンテンツの場所を特定するための検索機能もありません (私の知る限り、間違っている場合はお知らせください)。

誰かが.netを使用してpdfファイル内のテキストの場所を見つける方法を教えてもらえますか?

ありがとう

0 投票する
1 に答える
1048 参照

python - キーワードのPDF新聞のスクレイピング

私は数百のPDF形式の新聞とキーワードのリストを持っています。私の最終的な目標は、特定のキーワードに言及している記事の数を取得することです。1 つの pdf には、同じキーワードに言及している複数の記事が含まれている可能性があることに注意してください。

私の問題は、pdf ファイルをプレーン テキストに変換したときに書式設定が失われ、記事の開始時刻と終了時刻がわからないことです。

現時点では不可能だと考えているため、この問題に取り組む最善の方法は何ですか。

私は現在、このプロジェクトと pdf ライブラリ pdfminer に python を使用しています。これはpdfの1つです。 http://www.gulf-times.com/PDFLinks/streams/2011/2/27/2_418617_1_255.02.11.pdf

0 投票する
2 に答える
2714 参照

python - Python - 多くの個別の PDF をテキストに変換する方法は?

質問: Python パッケージ "slate" を使用して、同じパスにある多くの PDF を読み込むにはどうすればよいですか?

600 を超える PDF を含むフォルダーがあります。

次のコードを使用して、slate パッケージを使用して単一の PDF をテキストに変換する方法を知っています。

ただし、これにより、「migFiles [0]」で指定された一度に1つのPDFに制限されます-0はパスファイルの最初のPDFです。

一度に多くの PDF をテキストに読み込んで、それらを個別の文字列または txt ファイルとして保持するにはどうすればよいですか? 別のパッケージを使用する必要がありますか? パス内のすべての PDF を読み込む「for ループ」を作成するにはどうすればよいですか?

0 投票する
1 に答える
2795 参照

r - tm readPDF: ファイルのエラー(con, "r"): 接続を開くことができません

tm :: readPDF ドキュメントで推奨されているサンプル コードを試してみました。

しかし、次のエラーが発生します( によって返された関数を呼び出した後に発生しますreadPDF):

すべての xpdf バイナリを現在のディレクトリにインストールしたことに注意してください (ただし、これはif条件によって処理されます)。

編集:これはバグであることがわかりました。最も簡単な回避策は何ですか?

0 投票する
2 に答える
5544 参照

python - pdfminerを使用してPythonでURL経由でPDFを解析する

このファイルを解析しようとしていますが、Web サイトからダウンロードすることはありません。ハードドライブ上のファイルでこれを実行しましたが、問題なく解析できましたが、このスクリプトを実行するとトリップします。

URLを間違って統合していると思います。