問題タブ [pdfminer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pdfminerを使用してpdfからテキストを抽出すると、複数のコピーが得られます
PDFMiner を使用して PDF ファイルからテキストを抽出しようとしています ( Python で PDFMiner を使用して PDF ファイルからテキストを抽出するコードは? )。path/to/pdf 以外のコードは変更していません。驚くべきことに、コードは同じドキュメントの複数のコピーを返します。他のpdfファイルでも同じ結果が得られました。他の引数を渡す必要がありますか、それとも何か不足していますか? どんな助けでも大歓迎です。念のため、コードを提供します。
python - Anacondaにbinstarパッケージをインストールするには?
ソースディストリビューションを使用して-pdfminer-をインストールできなかったため、 binstarを使用してインストールしようとしていました。私は Python の Anaconda ディストリビューションを使用しているので、次のように入力します。
ただし、次のエラーが発生します。
解決策を提案していただけますか?
ありがとうございました。
PS:binstar search -t conda pdfminer
以下を返します。
python - PDFQuery + サーバー上のファイル
「 https://developer.apple.com/library/ios/documentation/ides/conceptual/AppDistributionGuide/AppDistributionGuide.pdf」にあるドキュメントで、「できる」というテキスト文字列を検索しようとしています。
この目的のために、私は PDFQuery を使用しています。最初に、自分のマシンに pdf をダウンロードし、コードを実行しました。それは完璧に機能しています。しかし、ファイルの場所にサーバーの URL を入力しようとすると、エラーが表示されます。PDFQuery ライブラリがローカル マシンで動作するように開発されていることは知っています。
何かを見つけて問題を解決する方法はありますか。これは私のコース プロジェクトの一部であり、私が開発する予定の pdf 検索モジュールは IBM Bluemix にデプロイされ、そこから実行されます。この部分だけが私のプロジェクトで保留中です。どんな助けでも大歓迎です。
前もって感謝します。
python - PythonでpdfMinerを使用して値を予測的に読み取る方法
私はpdfMinerを使用してグラフから値を読み取っていますが、これまでのところうまく機能しています!
ただし、正しいデータが正しく読み取られても、予測できない方法で読み取られる領域が 1 つあります。つまり、すべてのグラフの値が、表示される順序とはまったく異なる順序で正しく読み取られます。
私が知っている限り、最後のグラフが常に最初に読み込まれると言って、それを中心にプログラムを構築できるので、これは完全に問題ではありません。pdfMiner がこのデータを読み取る方法がほぼ完全に予測不可能であるように思われることを除けば、識別可能なパターンは見つかりません。
これはおそらく、私が pdfMiner に慣れていないため、どのように機能するのか完全にはわかりません。そうです、もし誰かが私を正しい方向に向けることができれば、それは本当に役に立ちます.
ここに私のデータがあります
そして、ここに私が使用している変換コードがあります:
python - ファイルからの読み取りとMongoDB GridFSの違いは?
PDF を処理する Python Flask フレームワークを使用して Web サイトを開発しています。私は PDF ファイルを MongoDB に保存します。MongoDB は、訪問ユーザーに提供する必要がある場合に問題なく動作します。pdfminer ライブラリを使用するテキストと画像の抽出を行う必要があります。pdf2txt.pyを使用してファイル システムからファイルを提供すると、この行 ( context here ) はすぐに機能します。
しかし、MongoDB からGridFSオブジェクトを提供するようにコードを編集すると、2 行目 (取得が完了した後) が成功するまでに約 8 秒かかります (結果は上記のコードと同じです)。
MongoDB からファイルを取得することも、ファイル システムからファイルを取得することも同じ結果を返す (ブラウザーで同じようにレンダリングされる)と想定していたので、これには驚きましたが、明らかに同じではありません。
この 2 つの違いが原因でこの呼び出しに時間がかかり、さらに重要なことに、それをどのように解決できるかを知っている人はいますか? すべてのヒントは大歓迎です!
python - Python で PDF からハイパーリンクを抽出する
いくつかのハイパーリンクを含む PDF ドキュメントがあり、その PDF からすべてのテキストを抽出する必要があります。http://www.endlesscurious.com/2012/06/13/scraping-pdf-with-python/の PDFMiner ライブラリとコードを使用して、 テキストを抽出しました。ただし、ハイパーリンクは抽出されません。
たとえば、Check this link outというテキストにリンクが添付されています。単語を抽出することはできますCheck this link out
が、本当に必要なのはハイパーリンク自体であり、単語ではありません。
どうすればこれを行うことができますか?理想的には、Python で行うことを好みますが、他の言語でも同様に行うことができます。
見たことはありますがitextsharp
、使ったことはありません。私は を実行していUbuntu
ます。助けていただければ幸いです。
python - PDFからテーブルを抽出する
このPDFの表からデータを取得しようとしています。少し運が良かったのでpdfminerとpypdfを試しましたが、実際にはテーブルからデータを取得できません。
テーブルの 1 つが次のようになります。
ご覧のとおり、一部の列は「x」でマークされています。このテーブルをオブジェクトのリストにしようとしています。
これはこれまでのコードです。現在pdfminerを使用しています。
これによりテキスト ファイルが生成され、すべてのテキストが取得されますが、x の間隔は保持されません。出力は次のようになります。
x は、テキスト ドキュメント内のシングル スペースです。
現在、私はテキスト出力を生成しているだけですが、私の目標は、テーブルからのデータを使用して html ドキュメントを生成することです。私は OCR の例を探してきましたが、それらのほとんどはわかりにくいか不完全なようです。私は、探している結果を生成する可能性のある C# またはその他の言語を使用することにオープンです。
編集:テーブルデータを取得する必要がある、このような複数のpdfがあります。ヘッダーはすべてのpdfで同じになります(私が知る限り)。