問題タブ [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
13327 参照

pdf - PDF からテーブル データを抽出する

PDF ファイルからテーブルを抽出する一貫した方法はありますか? ツールはありますか?

私がこれまでに行ったこと:

  • pdftotextツールを試してみました。HTML レイアウトに変換するオプションがあります。

これの問題は何ですか:

  • テーブル情報は HTML 出力に保持されません
  • タグを期待<table>していましたが、すべてが<p>タグの下にありました。

表の構造を示すマーカーは PDF ドキュメントに含まれますか? のよう<table>に、<tr>そして<td>HTML で?

「はい」の場合、これへのポインタは役に立ちます。「いいえ」の場合、この事実に関する明確な情報も役立ちます。

0 投票する
3 に答える
27111 参照

python - Python で PDF を読み取り、PDF のテキストに変換する

このコードを使用してpdfをテキストに変換しました。

ホーム ディレクトリを作成し、そこにソース ファイルを貼り付けました。

私が得る出力は

また、.txt を含むファイルは作成されませんでした。問題はどこだ?

0 投票する
0 に答える
213 参照

unix - ラジオ ボタン フィールドの値を PDF からテキストにエクスポートする

一連の PDF ファイルに対していくつかの自然言語処理操作を実行するには、OCR でスキャンされた PDF ファイルからいくつかのラジオ ボタン フィールドの値をテキストに自動的に抽出する必要があります。pdftotext を使用すると、2 つの選択肢のラジオ ボタン (女性、男性) が次のようなテキストにエクスポートされます。

セックス

女性

私が必要としているのは、どのラジオボタンが選択されているかを示すある種の注釈です。つまり、次のようなものです。

セックス

×女性

これを行うことができる UNIX ツールはありますか? pdftotext のマニュアルを読み、-raw や -layout などのスイッチを試しましたが、成功しませんでした。

前もって感謝します。

TL;DR pdftotext などの UNIX ツールを使用して、OCR でスキャンした PDF ドキュメントからラジオ ボタンの値を抽出できますか?

0 投票する
1 に答える
166 参照

pdftotext - pdftotext で書式設定されたプレーン テキスト マークアップを取得するにはどうすればよいですか?

pdftotextPDFファイルからプレーンコンテンツを抽出するために使用しています。

ただし、結果には形式がありません (例: 段落、リストなど)。pdftotextを使用してPDFからプレーンテキストを抽出し、マークアップでフォーマットされた結果を取得するにはどうすればよいですか?

実際にこれを試しています:

これを行う他の方法はありますか?

0 投票する
0 に答える
57 参照

php - PDFからテキストの半分だけを印刷する

私はpdfファイルからすべてのテキストを印刷していますが、最初のpdfからのみテキストを印刷しているようです.また、最初のpdfについては、それからほんの一部しか印刷していません.私が間違っていること

ここに私のコードがあります

0 投票する
1 に答える
552 参照

bash - bash - 文字列変数がフォーム フィードと等しいかどうかを確認する

私は bash を初めて使用するので、これは単純に答えられている可能性がありますが、私の研究ではまだ解決策が得られていません。PDFをOCRする必要があるかどうかを確認する簡単なbashスクリプトを作成しようとしています。pdftotextXpdf で配布されている実行可能ファイルを使用します。pdftotextがテキストを出力しない場合は、PDF を OCR する必要があります。問題は、PDF が OCR されていない場合、pdftotext(単なる空の文字列ではなく) フォーム フィード文字を返すことです。pdftotext試してみると、返された文字列をフォーム フィードと比較するための bash を取得できません。

これが私のコードです:

現在、test.pdfOCRされていません。このテストを Python で実行してrepr()I getを使用すると\x0c、フォーム フィードの文字コードが取得されます。しかし、bash でechoingを実行すると、空白行が出力されるだけです。$pdf_txt

考え?提案?

0 投票する
1 に答える
2759 参照

android - PDFドキュメントをTextViewに表示するにはどうすればよいですか?

PDFファイルを読み込んでコンテンツを表示したいTextView。出来ますか ?WebViewまたはpdfViewerにpdfを表示するだけですか?

みたいにやりたい、

0 投票する
1 に答える
900 参照

linux - Windows 7 で「pdftotext」エラーが発生 -- 同じ PDF が Linux で正しく処理される

問題なく動作する古い Linux バージョン (0.12.4) を持っていpdftotextますが、Windows 7 マシンで実行したいと考えています。

http://gnuwin32.sourceforge.net/packages/xpdf.htmxpdf-2.03-bin.exeから、最新バージョンと思われる Windows インストーラーをダウンロードしました。

すべてのインストーラーのデフォルトを受け入れました。Linux バージョンで正しく処理された PDF ファイルに対してWindows 7 を実行するpdftotextと、次の一連のエラー メッセージが表示されました。

これらのエラー メッセージについて Web 検索を行いましたが、これらのエラーに関連する問題はどれも、私が抱えている問題に関連しているようには見えませんでした。

Windows 7でこの問題に遭遇した人pdftotext、または解決方法を知っている人はいますか?