問題タブ [xpdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
2569 参照

linux - PDFがocrされていることを確認するBASHスクリプト

本当にこれをどこから始めればいいのかわからない

私は 8000 を超える PDF を持つ Linux サーバーを使用しており、どの PDF が ocr され、どの PDF がそうでないかを知る必要があります。

PDFをチェックするためにXPDFを呼び出すある種のスクリプトを考えていましたが、正直なところ、これが可能かどうかはわかりません

助けてくれてありがとう

0 投票する
3 に答える
8714 参照

php - xpdfを使用してPDFからテキストを抽出する方法は?

フォルダにたくさんのPDFがあります。xpdfを使用してこれらのPDFからテキストを抽出したいと思います。例えば ​​:

  • example1.pdfをexample1.txtに抽出
  • example2.pdfをexample2.txtに抽出
  • 等..

これが私のコードです:

空白の結果が表示されます。私のコードの何が問題になっていますか?

0 投票する
2 に答える
1132 参照

pdf - PDFファイルの正しい単語数を取得する

このトピックの回答は、PDFが単語を見つけられないことがある理由と、さまざまなPDF単語数プログラムを使用しているときにさまざまな単語数を取得し続ける理由を理解するのに役立ちました。を使用することにしましたxpdf。それをテキストに変換し、-layoutタグを追加してから、結果のテキストファイルをWord2003で開きました。単語数を記録しました。次に、残念ながら、-layoutタグを削除することにしました。ただし、今回は単語数が異なります。

そのタグが単語数に影響したのはなぜですか?PDFファイルの単語数を見つける正確な方法はありますか?それが私に正しい単語数を与える限り、私がそうしなければならないならば、私はそのようなソフトウェアにさえお金を払うでしょう。

別のトピックを確認しましたが、提供したソリューションですべてが解決するかどうかを確認したいと思いました。advancedpdfが推奨される別のトピックがありました。)

0 投票する
1 に答える
189 参照

wordpress - wordpressでpdfやdoc文書を読む方法はありますか?

wordpress プラグインで pdf または doc ドキュメントのテキスト コンテンツを読みたいです。xpdf をダウンロードし、それを使用してコンテンツを取得しました。しかし、ワードプレスのプラグインまたはテーマでは、コンテンツを取得できません。

このコードをプラグインで使用しましたが、$content 変数が null です。どうすればこの問題を解決できますか?

0 投票する
2 に答える
3837 参照

pdf - Postscript で BoundingBox/CropBox を使用して PDF をトリミングする

Postscript ファイルの BoundingBox と CropBox の実際の違いを知りたいです。PDFファイルを切り抜いて、切り抜いた部分だけを別のPDFファイルとして表示したい。xpdf ライブラリの pdftops を使用して、PDF ファイルを Postscript に変換しました。元のファイルの特定の部分だけが表示されるように、BoundingBox/CropBox パラメーターを編集する予定です。しかし、ファイルを開くと、元のファイルがまだ表示されます。PDF をクロップするには、どのパラメータを変更すればよいですか?

0 投票する
3 に答える
3215 参照

php - shell_exec()がpdftotextコマンドを実行していません

必要なライブラリをインストールし、ターミナルで動作しましたが、php ファイルでは動作しませんでした。私のコードは次のとおりです。

/usr/local/bin/pdftotext test.pdf test.txtターミナルでこのコマンドを実行すると、正常に動作します。

私もこのタイプのコードを書きます:

エラー ログのメッセージは次のとおりです。

0 投票する
2 に答える
2090 参照

php - 区切り文字としてUnicode文字を使用したPHPExplode

XPDFs pdftotextはpdfをテキストに変換し、コマンドラインレベルで出力します。必要に応じて、TextOutputDev.ccで指定されているようにページ間にPageBreaksを挿入します。

このUnicodeシンボルはエンコーディングに依存-enc ASCII7せず、変更されません。私は現在、データベースストレージ用にPDFファイルをいくつかのTXTページに変換および分割するためにPHPを使用するつもりです。ただし、次の関数は機能しますが、PDF全体を一度に変換する場合の2倍の時間がかかります。

explode(0x0c, $wholePDF)Unicode文字を区切り文字として使用するにはどうすればよいですか?現在、page [$ i]は、shell_exec()からこれらの奇妙なUnicodePageBreak文字を取得していないようです。エンコード用にいくつかのヘッダー(特にUTF-8)を試しましたが、今のところうまくいきませんでした。

0 投票する
1 に答える
1600 参照

perl - XPDF pdftotext およびページ番号の処理

PDFからテキストを抽出する目的で、perlを使用してpdftotextを利用します。よく働く。私の問題は、私が読んでいるpdfが複数ページであり、各ページの上部にある特定の行のデータを探していることです。次のコードは、両方のページの内容全体を 1 つのファイルにダンプします。定数データ (ページの上部) の後のデータ長が変化するため、ページ 2 からデータを正確に引き出すことができません。最初に pdftotext または他のユーティリティ/モジュールを使用して各ページをステップ実行し、次に pdftotext を呼び出すにはどうすればよいですか?各ページ個別に?

0 投票する
6 に答える
6391 参照

php - 元の形式で PDF から画像を抽出する方法

pdfimages -j bar.pdf /tmp/imagePDFから画像を抽出するために使用しています。私の目的は、それらが追加されたときの生の状態にすることです。.tif の場合は .tif を取得したいのですが、jpg の場合は .jpg を取得したいと思います。抽出したものすべてに対して .ppm を取得し続けます。

元の形式で画像を取得することは可能ですか、それとも ppm が私の唯一の意見ですか?

更新:これを行う主な目的は、ドキュメントに含まれるすべての画像の DPI を確認すること、またはそれらがベクターかどうかを確認することです。

0 投票する
1 に答える
4613 参照

centos - Centos 6 64ビットのpdftotext?

私は HostGator VPS サーバーを持っており、 ( http://www.foolabs.com/xpdf/download.htmlpdftotext )の一部を実行できるようにしたいと考えています。xpdf

これを私の Mac でテストしたところ、問題なく動作したので、VPS サーバーにインストールしました。

インストール手順に従いましたが、すべて問題なくインストールされました。

  1. 実行可能ファイル (xpdf、pdftotext など) を /usr/local/bin にコピーします。

  2. man ページ (*.1 および *.5) を /usr/local/man/man1 および /usr/local/man/man5 にコピーします。

  3. sample-xpdfrc ファイルを /usr/local/etc/xpdfrc にコピーします。

それから私はそれをテストしました:

ご覧のとおり、見つかりません/lib64/libc.so.6でした。/lib64/libc.so.6ただし、次のように表示されます。

/lib64/libc.so.6次に HostGator に連絡したところ、 が見つからず、Centos 6 64 ビットでは使用できないため、私のサーバーでは機能しないと言われました。

これが本当なら、pdftotextこのサーバーで動作するシンプルで高速な変換を行う代替手段はありますか? が別のバージョンに準拠している可能性はありpdftotextますか? または、パーミッションで間違ってインストールした可能性はありますか?