問題タブ [pdftotext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - PDF からテーブル データを抽出する
PDF ファイルからテーブルを抽出する一貫した方法はありますか? ツールはありますか?
私がこれまでに行ったこと:
pdftotext
ツールを試してみました。HTML レイアウトに変換するオプションがあります。
これの問題は何ですか:
- テーブル情報は HTML 出力に保持されません
- タグを期待
<table>
していましたが、すべてが<p>
タグの下にありました。
表の構造を示すマーカーは PDF ドキュメントに含まれますか? のよう<table>
に、<tr>
そして<td>
HTML で?
「はい」の場合、これへのポインタは役に立ちます。「いいえ」の場合、この事実に関する明確な情報も役立ちます。
python - Python で PDF を読み取り、PDF のテキストに変換する
このコードを使用してpdfをテキストに変換しました。
ホーム ディレクトリを作成し、そこにソース ファイルを貼り付けました。
私が得る出力は
また、.txt を含むファイルは作成されませんでした。問題はどこだ?
unix - ラジオ ボタン フィールドの値を PDF からテキストにエクスポートする
一連の PDF ファイルに対していくつかの自然言語処理操作を実行するには、OCR でスキャンされた PDF ファイルからいくつかのラジオ ボタン フィールドの値をテキストに自動的に抽出する必要があります。pdftotext を使用すると、2 つの選択肢のラジオ ボタン (女性、男性) が次のようなテキストにエクスポートされます。
セックス
女性
男
私が必要としているのは、どのラジオボタンが選択されているかを示すある種の注釈です。つまり、次のようなものです。
セックス
×女性
男
これを行うことができる UNIX ツールはありますか? pdftotext のマニュアルを読み、-raw や -layout などのスイッチを試しましたが、成功しませんでした。
前もって感謝します。
TL;DR pdftotext などの UNIX ツールを使用して、OCR でスキャンした PDF ドキュメントからラジオ ボタンの値を抽出できますか?
pdftotext - pdftotext で書式設定されたプレーン テキスト マークアップを取得するにはどうすればよいですか?
pdftotext
PDFファイルからプレーンコンテンツを抽出するために使用しています。
ただし、結果には形式がありません (例: 段落、リストなど)。pdftotext
を使用してPDFからプレーンテキストを抽出し、マークアップでフォーマットされた結果を取得するにはどうすればよいですか?
実際にこれを試しています:
これを行う他の方法はありますか?
php - PDFからテキストの半分だけを印刷する
私はpdfファイルからすべてのテキストを印刷していますが、最初のpdfからのみテキストを印刷しているようです.また、最初のpdfについては、それからほんの一部しか印刷していません.私が間違っていること
ここに私のコードがあります
bash - bash - 文字列変数がフォーム フィードと等しいかどうかを確認する
私は bash を初めて使用するので、これは単純に答えられている可能性がありますが、私の研究ではまだ解決策が得られていません。PDFをOCRする必要があるかどうかを確認する簡単なbashスクリプトを作成しようとしています。pdftotext
Xpdf で配布されている実行可能ファイルを使用します。pdftotext
がテキストを出力しない場合は、PDF を OCR する必要があります。問題は、PDF が OCR されていない場合、pdftotext
(単なる空の文字列ではなく) フォーム フィード文字を返すことです。pdftotext
試してみると、返された文字列をフォーム フィードと比較するための bash を取得できません。
これが私のコードです:
現在、test.pdf
OCRされていません。このテストを Python で実行してrepr()
I getを使用すると\x0c
、フォーム フィードの文字コードが取得されます。しかし、bash でecho
ingを実行すると、空白行が出力されるだけです。$pdf_txt
考え?提案?
android - PDFドキュメントをTextViewに表示するにはどうすればよいですか?
PDFファイルを読み込んでコンテンツを表示したいTextView
。出来ますか ?WebView
またはpdfViewerにpdfを表示するだけですか?
みたいにやりたい、
linux - Windows 7 で「pdftotext」エラーが発生 -- 同じ PDF が Linux で正しく処理される
問題なく動作する古い Linux バージョン (0.12.4) を持っていpdftotext
ますが、Windows 7 マシンで実行したいと考えています。
http://gnuwin32.sourceforge.net/packages/xpdf.htmxpdf-2.03-bin.exe
から、最新バージョンと思われる Windows インストーラーをダウンロードしました。
すべてのインストーラーのデフォルトを受け入れました。Linux バージョンで正しく処理された PDF ファイルに対してWindows 7 を実行するpdftotext
と、次の一連のエラー メッセージが表示されました。
これらのエラー メッセージについて Web 検索を行いましたが、これらのエラーに関連する問題はどれも、私が抱えている問題に関連しているようには見えませんでした。
Windows 7でこの問題に遭遇した人pdftotext
、または解決方法を知っている人はいますか?