問題タブ [pdftotext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - xpdfを使用してPDF内のいくつかの特別なフォントをデコードする方法は?
私はxpdfを使用してpdfファイルをテキストに変換しています。以下はそれに使用されるコードです。
Xpdfは、PDF内のいくつかの特別なフォントをテキストに変換することはできません。例:xpdfを使用して奇妙なフォントをテキストに変換することはできません。
それらは、PDFのすべての種類のフォントをPHPのテキストに変換できる代替ソフトウェアですか。
linux - pdftotext と pdfimages から PDF 画像をテキストに挿入しますか?
pdftotext
PDFをテキストに変換し、Macで画像を抽出するユーティリティ(おそらくLinuxに付属)をインストールできました。
だから今、私はPDFからの(印象的によくフォーマットされた)テキストと、ImageMagickで変換しoutput.txt
なければならなかったたくさんの画像を持っています。.ppm
.jpg
質問は、これらの画像への参照をoutput.txt
ドキュメントの適切な場所に挿入する方法はありますか? または、これら 2 つのコマンドを組み合わせて、テキストと画像の両方を抽出し、テキスト内に画像へのリンクを一度に作成する方法はありますか? 自分で画像をテキストに挿入するために解析コードを手動で作成する必要があるかどうか疑問に思っています。
java - JavaスイングでPDFファイルをdocファイルに変換するには?
pdf ファイルを doc ファイルに変換し、この doc ファイルを jeditor ペインに表示する方法。誰か助けてくださいありがとう
pdftotext - ディレクトリ内の多数の .pdf を .txt ファイルに変換する
テキスト ファイルに変換したいディレクトリに 1,000 を超えるファイルがあります。以下のようなコードを使用して、最初にファイル名のスペースを削除してから、ファイルをテキストに変換します。
!/ビン/バッシュ
ただし、このコードはI love you.pdfのようなファイルをI_love_you.pdf.txt に変換します。最終的なファイル拡張子の .pdf 部分を削除したいと考えています。
php - shell_exec()がpdftotextコマンドを実行していません
必要なライブラリをインストールし、ターミナルで動作しましたが、php ファイルでは動作しませんでした。私のコードは次のとおりです。
/usr/local/bin/pdftotext test.pdf test.txt
ターミナルでこのコマンドを実行すると、正常に動作します。
私もこのタイプのコードを書きます:
エラー ログのメッセージは次のとおりです。
php - 区切り文字としてUnicode文字を使用したPHPExplode
XPDFs pdftotextはpdfをテキストに変換し、コマンドラインレベルで出力します。必要に応じて、TextOutputDev.ccで指定されているようにページ間にPageBreaksを挿入します。
このUnicodeシンボルはエンコーディングに依存-enc ASCII7
せず、変更されません。私は現在、データベースストレージ用にPDFファイルをいくつかのTXTページに変換および分割するためにPHPを使用するつもりです。ただし、次の関数は機能しますが、PDF全体を一度に変換する場合の2倍の時間がかかります。
explode(0x0c, $wholePDF)
Unicode文字を区切り文字として使用するにはどうすればよいですか?現在、page [$ i]は、shell_exec()からこれらの奇妙なUnicodePageBreak文字を取得していないようです。エンコード用にいくつかのヘッダー(特にUTF-8)を試しましたが、今のところうまくいきませんでした。
php - 外部URLを含むpdftotext(PHP)
外部URLからのPDFを検索可能にしたい。XPDFのpdftotextを使用しています。すでにWebスペースにあるPDFで正常に機能していますが、代わりに外部PDFを使用しようとすると、エラーメッセージが表示され続けます。具体的には次のようになります。
「エラー:ファイルを開くことができませんでした'https://www.vericoa.com/sandbox/test2.pdf'」
これが私のコードです
外部のPDFソースからテキストを抽出することも可能ですか?代替案はありますか(私は最後の時間を検索に費やしましたが、何も見つかりませんでした)。
よろしくお願いしますマティアス
python - 対処方法有効なutf-8は何ですか?私は何を間違っていますか?
pdftotext
オプション「-enc utf-8 -htmlmeta -raw」を使用して、それを出力を解析するpythonスクリプトに渡します。(pdftotext に慣れていない場合でも、関係ない可能性があるため、読み進めてください。)
私たちが処理している一部の pdf では、pdftotext は次のようなメタデータを出力しています。
Pythonでは、これを(基本的に)行っています:
上記のメタデータの文字列はどこにcontent
ありますか。<FE><FF>
Python は例外を発生させます。
この時点で、問題が PDF 自体にあるのか、pdftotext からの出力なのか、Python の utf-8 の解釈方法にあるのかはわかりません。
私はグーグルで検索しましたが、決定的なものは何も見つかりませんでした。
基本的に、有効な utf-8のみを出力することを期待pdftotext -enc utf-8
します。そして、デコード時にそのutf-8を処理する方法をPythonが理解することを期待しています。私が見逃している部分はありますか?
なぜこれが起こっているのかを理解し、解決策を教えていただければ幸いです。
ありがとう!
java - itext Java PDFからテキスト作成
私はpdfをテキストファイルに変換するためにitextを使用していますが、実際にはうまく機能しますが、いくつかの単語では次のことを行います. とにかくこの動作を修正する方法はありますか?