問題タブ [pdfminer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PythonでPDFドキュメントの回転したページを検出する方法は?
複数のページを持つ PDF ドキュメントが与えられた場合、特定のページが回転されているかどうかを確認する方法 (-90、90、または 180 度)? Python(pdfminer、pyPDF)を使用することをお勧めします...
更新: ページはスキャンされており、ページの大部分はテキストで構成されています。
python - pdfminer に座標を入力して結果を取得する
座標を入力してpdfマイナーでテキストを抽出しようとしています.インターネットを検索しましたが、それに関連するドキュメントやコードは見つかりませんでした.これまでのところ、テキストを抽出してその座標を出力するコードを見つけました.
これは、私が取得した出力座標とテキストの 1 つです。pdfqueryも試しましたが、多くのエラーが発生しました。
誰かがそれを手伝ってくれますか?
python - Pythonでpdfからヒンディー語で書かれたテキストを抽出する
PDFドキュメントからヒンディー語で入力されたテキストを抽出したい .私が扱っているサンプルページの画像を添付しました.
pdfminer を使用してテキストを取得しようとしましたが、テキストが文字化けしています (ヒンディー語フォントが原因である可能性があります)。
今、ページを 3 つの部分に分割し、各部分を 2 つの部分 (英語とヒンディー語のテキストを分離) に分割し、それぞれの半分で ocr を実行してテキストを取得することを考えていますが、唯一の問題は、ヒンディー語に使用されるフォントがわからないことです。また文字化けするかもしれません。
私の質問は、ヒンディー語フォントを処理するためのより良い方法はありますか? フォント名を見つけるにはどうすればよいですか?
python-2.7 - Python でデスクトップ スクリーニングを自動化する
.txt
ユーザーのデスクトップ上の画像またはテキストを自動的にスキャンし、テキスト分析用にファイルに変換できるプログラムを作成しようとしています。
PDF
これまでのところ、とにHTML
変換するソース コードを見つけました.txt
。ただし、次のようなソースを手動で入力するのではなく、プログラムが特定の時間間隔でデスクトップ画面を自動的にスキャンするようにしたいと考えています。
どこから始めればいいのかわからないので、何か提案をいただければ幸いです。