問題タブ [pdftotext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - PDFParser エラー メッセージ
エラー 1
「org.pdfbox.pdfparser.PDFParser.PDFParser(java.io.InputStream)」に最適なオーバーロードされたメソッドの一致には、いくつかの無効な引数があります H:\pdf_ver3.cs 129 51 PDF-to-Text コンバーター
コード:
python - Pythonで空白を含むpdfを抽出することは可能ですか?
Javaとpdfboxを使用してPDFを抽出するツールが作成された後、PythonでPDFを抽出しようとしました。
Java 実装は同じ pdf で成功しましたが、pdfminer と pypdf の両方と pypdf2 がスペースを含む行ごとに pdf を抽出できないため、python で同じことを行うのに苦労しています。特に、pdfminer pdf2txt は、何らかの奇妙な理由で pdf を 3 列に分割してから、行ごとに読み取ります。
私が得た最も近いものは、残念ながらスペースを保持しないスタックオーバーフローの質問の実装を使用することでした. 両方とも数値を持つ変数があるため、それらをテキスト形式で復元することはできません。
これを考えると、Pythonで行ごとに空白を含むpdfを抽出することは可能ですか?
linux - 不正確な PDF からテキストへの変換
Linux で利用可能なほぼすべての PDF からテキストへのコンバーターを試しましたが、テキストの一部が破損しているか不正確です。一部の文字が他の文字に置き換えられるように、一部の単語が PDF に存在するテキストから欠落しています。一部の単語では、変換されたテキストにセミコロンなどが含まれています。
単語を修正できるように aspell も試しましたが、一部の単語で aspell が沈黙したままです。
注: PDF にはスウェーデン語のテキストが含まれています。
それで、pdfからテキストへの変換でこの不正確さを修正する解決策はありますか?
pdftotext - pdftotext.cc のコンパイル エラー
次のコードをコンパイルしようとしています。
https://github.com/zdanozdan/pdftotext/wiki
しかし、私の ubuntu (12.04) は依存関係が多すぎるため、コンパイルを成功させる方法がわかりません。
コンパイル行:
gcc -o pdftotext pdftotext.cc
最初のエラーは次のとおりです。
pdftotext.cc:9:19: 致命的なエラー: aconf.h: そのようなファイルまたはディレクトリのコンパイルは終了しませんでした。
(私の初心者の質問で申し訳ありません:)
java - Javaを使用してスキャンしたPDFファイルからテキストを抽出する方法
いくつかのハード コピー ファイルを手動でスキャンし、pdf ファイル (ソフト コピー) に保存しました。これらの pdf ファイルは私の入力であるため、これらの pdf ファイルからテキストを抽出する必要があります。私はtika、pdfbox、itext、tess4jを試しましたが、私のファイル(インターネットからダウンロードした他のpdfの正確なテキストを取得する)に対して少なくとも50%の精度(ほとんどがジャンクデータを取得する)を提供するものは何もありません。この問題の解決策を提案できますか.
ありがとう
pdftotext - スキャンした pdf からのデータの読み取り
スキャンした PDF をテキストに変換したり、テキスト エディターでテキストとしてコピー アンド ペーストしたりできません。
このようなスキャンした PDF ファイルをプログラムまたは手動で TEXT 形式に変換する方法はありますか?
ありがとう