問題タブ [pdftotext]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

342 問題

0 投票する

1 に答える

301 参照

c# - PDFParser エラーメッセージ

エラー 1

「org.pdfbox.pdfparser.PDFParser.PDFParser(java.io.InputStream)」に最適なオーバーロードされたメソッドの一致には、いくつかの無効な引数があります H:\pdf_ver3.cs 129 51 PDF-to-Text コンバーター

コード：

c#pdfbox pdftotext

2013-05-06T10:38:58.373

0 投票する

2 に答える

2248 参照

python - Pythonで空白を含むpdfを抽出することは可能ですか?

Javaとpdfboxを使用してPDFを抽出するツールが作成された後、PythonでPDFを抽出しようとしました。

Java 実装は同じ pdf で成功しましたが、pdfminer と pypdf の両方と pypdf2 がスペースを含む行ごとに pdf を抽出できないため、python で同じことを行うのに苦労しています。特に、pdfminer pdf2txt は、何らかの奇妙な理由で pdf を 3 列に分割してから、行ごとに読み取ります。

私が得た最も近いものは、残念ながらスペースを保持しないスタックオーバーフローの質問の実装を使用することでした. 両方とも数値を持つ変数があるため、それらをテキスト形式で復元することはできません。

これを考えると、Pythonで行ごとに空白を含むpdfを抽出することは可能ですか?

python pypdf pdftotext

2013-06-16T04:38:39.070

0 投票する

1 に答える

375 参照

linux - 不正確な PDF からテキストへの変換

Linux で利用可能なほぼすべての PDF からテキストへのコンバーターを試しましたが、テキストの一部が破損しているか不正確です。一部の文字が他の文字に置き換えられるように、一部の単語が PDF に存在するテキストから欠落しています。一部の単語では、変換されたテキストにセミコロンなどが含まれています。

単語を修正できるように aspell も試しましたが、一部の単語で aspell が沈黙したままです。

注: PDF にはスウェーデン語のテキストが含まれています。

それで、pdfからテキストへの変換でこの不正確さを修正する解決策はありますか?

linux ocr aspell pdftotext

2013-07-22T11:16:53.173

0 投票する

1 に答える

413 参照

pdftotext - pdftotext.cc のコンパイルエラー

次のコードをコンパイルしようとしています。

https://github.com/zdanozdan/pdftotext/wiki

しかし、私の ubuntu (12.04) は依存関係が多すぎるため、コンパイルを成功させる方法がわかりません。

コンパイル行:

gcc -o pdftotext pdftotext.cc

最初のエラーは次のとおりです。

pdftotext.cc:9:19: 致命的なエラー: aconf.h: そのようなファイルまたはディレクトリのコンパイルは終了しませんでした。

(私の初心者の質問で申し訳ありません:)

pdftotext

2013-09-11T21:54:10.303

0 投票する

0 に答える

2430 参照

java - Javaを使用してスキャンしたPDFファイルからテキストを抽出する方法

いくつかのハードコピーファイルを手動でスキャンし、pdf ファイル (ソフトコピー) に保存しました。これらの pdf ファイルは私の入力であるため、これらの pdf ファイルからテキストを抽出する必要があります。私はtika、pdfbox、itext、tess4jを試しましたが、私のファイル（インターネットからダウンロードした他のpdfの正確なテキストを取得する）に対して少なくとも50％の精度（ほとんどがジャンクデータを取得する）を提供するものは何もありません。この問題の解決策を提案できますか.

ありがとう

java itext tesseract pdfbox pdftotext

2013-09-26T07:17:40.783

0 投票する

2 に答える

5274 参照

pdftotext - スキャンした pdf からのデータの読み取り

スキャンした PDF をテキストに変換したり、テキストエディターでテキストとしてコピーアンドペーストしたりできません。

このようなスキャンした PDF ファイルをプログラムまたは手動で TEXT 形式に変換する方法はありますか?

ありがとう

pdftotext

2013-10-01T03:37:30.740

1 2 3 4 5 6 7 8 9 10

問題タブ [pdftotext]

c# - PDFParser エラー メッセージ

python - Pythonで空白を含むpdfを抽出することは可能ですか?

linux - 不正確な PDF からテキストへの変換

pdftotext - pdftotext.cc のコンパイル エラー

java - Javaを使用してスキャンしたPDFファイルからテキストを抽出する方法

pdftotext - スキャンした pdf からのデータの読み取り

Reference

c# - PDFParser エラーメッセージ

pdftotext - pdftotext.cc のコンパイルエラー