“pdftotext”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

13327 参照

pdf - PDF からテーブルデータを抽出する

PDF ファイルからテーブルを抽出する一貫した方法はありますか? ツールはありますか？

私がこれまでに行ったこと：

pdftotextツールを試してみました。HTML レイアウトに変換するオプションがあります。

これの問題は何ですか：

テーブル情報は HTML 出力に保持されません
タグを期待<table>していましたが、すべてが<p>タグの下にありました。

表の構造を示すマーカーは PDF ドキュメントに含まれますか? のよう<table>に、<tr>そして<td>HTML で？

「はい」の場合、これへのポインタは役に立ちます。「いいえ」の場合、この事実に関する明確な情報も役立ちます。

2014-05-06T12:56:21.080

0 投票する

3 に答える

27111 参照

python - Python で PDF を読み取り、PDF のテキストに変換する

このコードを使用してpdfをテキストに変換しました。

ホームディレクトリを作成し、そこにソースファイルを貼り付けました。

私が得る出力は

また、.txt を含むファイルは作成されませんでした。問題はどこだ？

python pdftotext

2014-05-23T04:55:03.413

0 投票する

0 に答える

213 参照

unix - ラジオボタンフィールドの値を PDF からテキストにエクスポートする

一連の PDF ファイルに対していくつかの自然言語処理操作を実行するには、OCR でスキャンされた PDF ファイルからいくつかのラジオボタンフィールドの値をテキストに自動的に抽出する必要があります。pdftotext を使用すると、2 つの選択肢のラジオボタン (女性、男性) が次のようなテキストにエクスポートされます。

セックス

女性

男

私が必要としているのは、どのラジオボタンが選択されているかを示すある種の注釈です。つまり、次のようなものです。

セックス

×女性

男

これを行うことができる UNIX ツールはありますか? pdftotext のマニュアルを読み、-raw や -layout などのスイッチを試しましたが、成功しませんでした。

前もって感謝します。

TL;DR pdftotext などの UNIX ツールを使用して、OCR でスキャンした PDF ドキュメントからラジオボタンの値を抽出できますか?

unix pdf formatting pdftotext

2014-07-09T11:11:32.960

0 投票する

1 に答える

166 参照

pdftotext - pdftotext で書式設定されたプレーンテキストマークアップを取得するにはどうすればよいですか?

pdftotextPDFファイルからプレーンコンテンツを抽出するために使用しています。

ただし、結果には形式がありません (例: 段落、リストなど)。pdftotextを使用してPDFからプレーンテキストを抽出し、マークアップでフォーマットされた結果を取得するにはどうすればよいですか?

実際にこれを試しています：

これを行う他の方法はありますか？

pdftotext

2014-07-09T17:30:05.460

0 投票する

0 に答える

57 参照

php - PDFからテキストの半分だけを印刷する

私はpdfファイルからすべてのテキストを印刷していますが、最初のpdfからのみテキストを印刷しているようです.また、最初のpdfについては、それからほんの一部しか印刷していません.私が間違っていること

ここに私のコードがあります

php pdftotext

2014-07-17T08:39:17.787

0 投票する

1 に答える

552 参照

bash - bash - 文字列変数がフォームフィードと等しいかどうかを確認する

私は bash を初めて使用するので、これは単純に答えられている可能性がありますが、私の研究ではまだ解決策が得られていません。PDFをOCRする必要があるかどうかを確認する簡単なbashスクリプトを作成しようとしています。pdftotextXpdf で配布されている実行可能ファイルを使用します。pdftotextがテキストを出力しない場合は、PDF を OCR する必要があります。問題は、PDF が OCR されていない場合、pdftotext(単なる空の文字列ではなく) フォームフィード文字を返すことです。pdftotext試してみると、返された文字列をフォームフィードと比較するための bash を取得できません。

これが私のコードです：

現在、test.pdfOCRされていません。このテストを Python で実行してrepr()I getを使用すると\x0c、フォームフィードの文字コードが取得されます。しかし、bash でechoingを実行すると、空白行が出力されるだけです。$pdf_txt

考え？提案？

bash pdftotext

2014-07-21T04:02:13.977

0 投票する

1 に答える

2759 参照

android - PDFドキュメントをTextViewに表示するにはどうすればよいですか?

PDFファイルを読み込んでコンテンツを表示したいTextView。出来ますか？WebViewまたはpdfViewerにpdfを表示するだけですか？

みたいにやりたい、

android pdf-reader pdftotext

2014-09-09T07:52:08.930

0 投票する

1 に答える

900 参照

linux - Windows 7 で「pdftotext」エラーが発生 -- 同じ PDF が Linux で正しく処理される

問題なく動作する古い Linux バージョン (0.12.4) を持っていpdftotextますが、Windows 7 マシンで実行したいと考えています。

http://gnuwin32.sourceforge.net/packages/xpdf.htmxpdf-2.03-bin.exeから、最新バージョンと思われる Windows インストーラーをダウンロードしました。

すべてのインストーラーのデフォルトを受け入れました。Linux バージョンで正しく処理された PDF ファイルに対してWindows 7 を実行するpdftotextと、次の一連のエラーメッセージが表示されました。

これらのエラーメッセージについて Web 検索を行いましたが、これらのエラーに関連する問題はどれも、私が抱えている問題に関連しているようには見えませんでした。

Windows 7でこの問題に遭遇した人pdftotext、または解決方法を知っている人はいますか?

linux windows-7 pdftotext poppler xpdf

2014-10-10T18:46:25.543

問題タブ [pdftotext]

Reference