問題タブ [pdfminer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
6735 参照

python - PythonでPDFドキュメントの回転したページを検出する方法は?

複数のページを持つ PDF ドキュメントが与えられた場合、特定のページが回転されているかどうかを確認する方法 (-90、90、または 180 度)? Python(pdfminer、pyPDF)を使用することをお勧めします...

更新: ページはスキャンされており、ページの大部分はテキストで構成されています。

0 投票する
7 に答える
21016 参照

python - PDFminer: フォント情報を含むテキストを抽出

私はこの質問を見つけましたが、それはコマンド ラインを使用しており、サブプロセスを使用してコマンド ラインで Python スクリプトを呼び出し、HTML ファイルを解析してフォント情報を取得したくありません。

PDFminer をライブラリとして使用したいのですが、この質問を見つけましたが、フォント名やフォント サイズなどの他の情報がなく、プレーン テキストを抽出するだけです。

0 投票する
1 に答える
622 参照

python - pdfminer に座標を入力して結果を取得する

座標を入力してpdfマイナーでテキストを抽出しようとしています.インターネットを検索しましたが、それに関連するドキュメントやコードは見つかりませんでした.これまでのところ、テキストを抽出してその座標を出力するコードを見つけました.

これは、私が取得した出力座標とテキストの 1 つです。pdfqueryも試しましたが、多くのエラーが発生しました。

誰かがそれを手伝ってくれますか?

0 投票する
1 に答える
4639 参照

python - Pythonでpdfからヒンディー語で書かれたテキストを抽出する

PDFドキュメントからヒンディー語で入力されたテキストを抽出したい .私が扱っているサンプルページの画像を添付しました.

pdfminer を使用してテキストを取得しようとしましたが、テキストが文字化けしています (ヒンディー語フォントが原因である可能性があります)。

今、ページを 3 つの部分に分割し、各部分を 2 つの部分 (英語とヒンディー語のテキストを分離) に分割し、それぞれの半分で ocr を実行してテキストを取得することを考えていますが、唯一の問題は、ヒンディー語に使用されるフォントがわからないことです。また文字化けするかもしれません。

私の質問は、ヒンディー語フォントを処理するためのより良い方法はありますか? フォント名を見つけるにはどうすればよいですか?

0 投票する
1 に答える
36 参照

python-2.7 - Python でデスクトップ スクリーニングを自動化する

.txtユーザーのデスクトップ上の画像またはテキストを自動的にスキャンし、テキスト分析用にファイルに変換できるプログラムを作成しようとしています。

PDFこれまでのところ、とにHTML変換するソース コードを見つけました.txt。ただし、次のようなソースを手動で入力するのではなく、プログラムが特定の時間間隔でデスクトップ画面を自動的にスキャンするようにしたいと考えています。

どこから始めればいいのかわからないので、何か提案をいただければ幸いです。

0 投票する
0 に答える
2760 参照

python - pdfminer - インポートエラー