問題タブ [pdfminer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
15783 参照

python - Python PDFMINer - PDFからCSVへ

PDF を CSV ファイルに変換できるようにしたいと考えており、いくつかの便利なスクリプトを見つけましたが、Python は初めてなので、質問があります。

印刷先の PDF と CSV のファイルパスはどこで指定しますか?

Python 2.7.11 と PDFMiner 20140328 を使用しています。

0 投票する
2 に答える
2486 参照

jquery - PDFQuery:要素が配置されているページ番号を取得

PDFQueryを使用してPDFをスクレイピングするのはこれが初めてです。

私がする必要があるのは、いくつかのページを持つ価格表から価格を取得することです。製品コードを PDFQuery に渡したいのですが、コードを見つけてその横に価格を返す必要があります。問題は、Github ページで最初の例を使用するとテキストの場所が取得されることですが、「名前がページのどこにあるのか、またはどのページにあるのかを知る必要がないことに注意してください」と明確に示されています。これは私の価格表の場合ですが、他のすべての例ではページ番号 ( LTPage[pageid=1]) が指定されていますが、ページ番号を取得する場所がわかりません。

ページ番号を指定しないと、すべてのページの同じ場所にあるすべてのテキストが返されます。

また、exactTextコードは「92005」「92005C」「92005G」など、:contains単体ではあまり役に立たないので、機能を追加しました。

要素が配置されているページを選択し、 JQuery を使用してみましたが.closest、どちらもうまくいきませんでした。

PDFMiner のドキュメントPyQuery のドキュメントを確認しましたが、役に立た ないものはありません =(

私のコードは今次のようになります:

皆さん、どんな助けも大歓迎です!!!

0 投票する
1 に答える
2590 参照

python - Pythonで特定の見出しを持つPDFからデータを抽出する

PythonでPDFファイルを解析したかったのです。私の要件を説明できない PDFMiner の例を見てきました。

たとえば、履歴書を解析したい場合、要約、経験、趣味などのさまざまなフィールドが含まれています。

私は経験のみを抽出することに興味があり、この経験フィールドは 1 位または 2 位、または任意の場所にあります。経験フィールドがどこにあるかを特定し、データを抽出する必要があります。

これどうやってするの?

0 投票する
0 に答える
548 参照

python - Pythonでpdfminer、pdf2txt、texttractを試してもpdfをテキストに変換できない

InDesign および Illustrator から変換された PDF ファイルからテキストを抽出する際に問題が発生しています。これらのpdfファイルからのデータを必要とするプロジェクトに取り組んでいます。Pythonでpdfminer、pdf2txtライブラリを試しましたが、この場合はどれも機能しません。通常のpdfの場合、完全に機能します。ただし、これらの特別な pdf ファイルの場合、空白が表示されるだけです。誰でもこれで私を助けてくれますか? ありがとう。

0 投票する
2 に答える
2911 参照

python - pdfminerを使用してpdfをページに分離する

次のように、ページごとにPDFを抽出し、結果を辞書に保存しようとしています:

しかし、どのページにアクセスしても、以前のすべてのページが取得されます。これを修正する方法を教えてください。

0 投票する
3 に答える
9930 参照

python-2.7 - Python pdfminer 抽出画像は、ページごとに複数の画像を生成します (単一の画像である必要があります)

PDF 内の画像を抽出しようとしています。私が扱っているファイルは2ページ以上です。ページ 1 はテキストで、ページ 2 ~ n は画像です (1 ページに 1 つ、または複数のページにまたがる単一の画像である可能性があります。元のページを制御することはできません)。

ページ 1 からテキストを解析することはできますが、画像を取得しようとすると、画像ページごとに 3 つの画像が取得されます。保存が困難な画像の種類を判断できません。さらに、各ページの 3 つの写真を単一の img として保存しようとしても、結果が得られません (OSX のファインダーで開くことができないため)。

サンプル:

save_imagepageNum_imgNummode のformat で画像ごとにファイルを書き込むか'wb'、 mode でページごとに 1 つの画像を書き込み'a'ます。多くのファイル拡張子を試してみましたが、うまくいきませんでした。

私が調べたリソース:

http://denis.papathanasiou.org/posts/2010.08.04.post.html (時代遅れの pdfminer バージョン) http://nedbatchelder.com/blog/200712/extracting_jpgs_from_pdfs.html

0 投票する
1 に答える
351 参照

python - PythonでHTMLタグをテキストファイルに書き込む

pdfminer を使用して、複雑な (表、図) および非常に長い pdf を html に変換しました。結果をさらに解析し (例: テーブル、段落などを抽出)、nltk の文トークナイザーを使用してさらに分析したいと考えています。この目的のために、html をテキスト ファイルに保存して、解析方法を理解したいと考えています。残念ながら、私のコードは html を txt に書き込みません:

その上、コードはシェル内の html 文字列全体を出力します: どうすれば回避できますか?