問題タブ [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
422 参照

php - xpdfを使用してPDF内のいくつかの特別なフォントをデコードする方法は?

私はxpdfを使用してpdfファイルをテキストに変換しています。以下はそれに使用されるコードです。

Xpdfは、PDF内のいくつかの特別なフォントをテキストに変換することはできません。例:xpdfを使用して奇妙なフォントをテキストに変換することはできません。

それらは、PDFのすべての種類のフォントをPHPのテキストに変換できる代替ソフトウェアですか。

0 投票する
0 に答える
1163 参照

linux - pdftotext と pdfimages から PDF 画像をテキストに挿入しますか?

pdftotextPDFをテキストに変換し、Macで画像を抽出するユーティリティ(おそらくLinuxに付属)をインストールできました。

だから今、私はPDFからの(印象的によくフォーマットされた)テキストと、ImageMagickで変換しoutput.txtなければならなかったたくさんの画像を持っています。.ppm.jpg

質問は、これらの画像への参照をoutput.txtドキュメントの適切な場所に挿入する方法はありますか? または、これら 2 つのコマンドを組み合わせて、テキストと画像の両方を抽出し、テキスト内に画像へのリンクを一度に作成する方法はありますか? 自分で画像をテキストに挿入するために解析コードを手動で作成する必要があるかどうか疑問に思っています。

0 投票する
2 に答える
1334 参照

java - JavaスイングでPDFファイルをdocファイルに変換するには?

pdf ファイルを doc ファイルに変換し、この doc ファイルを jeditor ペインに表示する方法。誰か助けてくださいありがとう

0 投票する
2 に答える
687 参照

java - エンコーディングパラメータを使用してJavaプロセスとしてPdfToTextを実行する

Javaプロセスを介してPdfToTextを実行しています。

これは問題なく実行されます。

ただし、ここで指定されているエンコードパラメータを追加すると、次のようになります。

次に、プロセスがハングします。つまり、実行しているテストは、ループでスタックしているかのように実行されます。

エンコーディングには間違いなく値が含まれており、生成されたコマンドをコピーしてコマンドターミナルに貼り付けると、pdftotextは問題なく実行されます。

誰かが私がこれでどこが間違っているのか指摘できますか?

0 投票する
4 に答える
2055 参照

pdftotext - ディレクトリ内の多数の .pdf を .txt ファイルに変換する

テキスト ファイルに変換したいディレクトリに 1,000 を超えるファイルがあります。以下のようなコードを使用して、最初にファイル名のスペースを削除してから、ファイルをテキストに変換します。

!/ビン/バッシュ

ただし、このコードはI love you.pdfのようなファイルをI_love_you.pdf.txt に変換します最終的なファイル拡張子の .pdf 部分を削除したいと考えています。

0 投票する
3 に答える
3215 参照

php - shell_exec()がpdftotextコマンドを実行していません

必要なライブラリをインストールし、ターミナルで動作しましたが、php ファイルでは動作しませんでした。私のコードは次のとおりです。

/usr/local/bin/pdftotext test.pdf test.txtターミナルでこのコマンドを実行すると、正常に動作します。

私もこのタイプのコードを書きます:

エラー ログのメッセージは次のとおりです。

0 投票する
2 に答える
2090 参照

php - 区切り文字としてUnicode文字を使用したPHPExplode

XPDFs pdftotextはpdfをテキストに変換し、コマンドラインレベルで出力します。必要に応じて、TextOutputDev.ccで指定されているようにページ間にPageBreaksを挿入します。

このUnicodeシンボルはエンコーディングに依存-enc ASCII7せず、変更されません。私は現在、データベースストレージ用にPDFファイルをいくつかのTXTページに変換および分割するためにPHPを使用するつもりです。ただし、次の関数は機能しますが、PDF全体を一度に変換する場合の2倍の時間がかかります。

explode(0x0c, $wholePDF)Unicode文字を区切り文字として使用するにはどうすればよいですか?現在、page [$ i]は、shell_exec()からこれらの奇妙なUnicodePageBreak文字を取得していないようです。エンコード用にいくつかのヘッダー(特にUTF-8)を試しましたが、今のところうまくいきませんでした。

0 投票する
1 に答える
851 参照

php - 外部URLを含むpdftotext(PHP)

外部URLからのPDFを検索可能にしたい。XPDFのpdftotextを使用しています。すでにWebスペースにあるPDFで正常に機能していますが、代わりに外部PDFを使用しようとすると、エラーメッセージが表示され続けます。具体的には次のようになります。

「エラー:ファイルを開くことができませんでした'https://www.vericoa.com/sandbox/test2.pdf'」

これが私のコードです

外部のPDFソースからテキストを抽出することも可能ですか?代替案はありますか(私は最後の時間を検索に費やしましたが、何も見つかりませんでした)。

よろしくお願いしますマティアス

0 投票する
1 に答える
764 参照

python - 対処方法有効なutf-8は何ですか?私は何を間違っていますか?

pdftotextオプション「-enc utf-8 -htmlmeta -raw」を使用して、それを出力を解析するpythonスクリプトに渡します。(pdftotext に慣れていない場合でも、関係ない可能性があるため、読み進めてください。)

私たちが処理している一部の pdf では、pdftotext は次のようなメタデータを出力しています。

Pythonでは、これを(基本的に)行っています:

上記のメタデータの文字列はどこにcontentありますか。<FE><FF>Python は例外を発生させます。

この時点で、問題が PDF 自体にあるのか、pdftotext からの出力なのか、Python の utf-8 の解釈方法にあるのかはわかりません。

私はグーグルで検索しましたが、決定的なものは何も見つかりませんでした。

基本的に、有効な utf-8のみを出力することを期待pdftotext -enc utf-8します。そして、デコード時にそのutf-8を処理する方法をPythonが理解することを期待しています。私が見逃している部分はありますか?

なぜこれが起こっているのかを理解し、解決策を教えていただければ幸いです。

ありがとう!

0 投票する
3 に答える
8500 参照

java - itext Java PDFからテキスト作成

私はpdfをテキストファイルに変換するためにitextを使用していますが、実際にはうまく機能しますが、いくつかの単語では次のことを行います. とにかくこの動作を修正する方法はありますか?