問題タブ [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1394 参照

command-line - WindowsとUbuntuサーバーでpdftotextを使用する

私の Windows 7 PC では、コマンド ラインに「pdftotext myfile.pdf」と入力すると、myfile.pdf と同じディレクトリに .txt ファイルが作成されます。ただし、ubuntu-12.04 サーバーで同じ myfile.pdf を使用して同じコマンド ライン入力を試みると、次のようなエラー出力が表示されます。

等々...

Windows 7 の pdf ユーティリティ パッケージは、Linux で利用できるもの (Poppler のもの) とは異なりますか? そうでなければ、同じ呼び出しで同じ結果が得られるはずですよね?

0 投票する
1 に答える
306 参照

windows-7 - pdftotextの出力がWindows7PCとLinuxサーバーで異なるのはなぜですか?

両方のマシンで同じバージョンのxpdfを使用しています。ただし、Windows 7 PCで作成された.txtファイルは、Ubuntu12.04Linuxサーバーで作成されたものとは異なります。Windows 7 .txtファイルは、解析をかなり簡単にする多数の改行で整形式になっています。ただし、Linuxバージョンには改行がまったく含まれていません。Linuxで実行しているときに明示的に呼び出す必要があるWindows7のpdftotextが使用するオプションはありますか?

0 投票する
1 に答える
4613 参照

centos - Centos 6 64ビットのpdftotext?

私は HostGator VPS サーバーを持っており、 ( http://www.foolabs.com/xpdf/download.htmlpdftotext )の一部を実行できるようにしたいと考えています。xpdf

これを私の Mac でテストしたところ、問題なく動作したので、VPS サーバーにインストールしました。

インストール手順に従いましたが、すべて問題なくインストールされました。

  1. 実行可能ファイル (xpdf、pdftotext など) を /usr/local/bin にコピーします。

  2. man ページ (*.1 および *.5) を /usr/local/man/man1 および /usr/local/man/man5 にコピーします。

  3. sample-xpdfrc ファイルを /usr/local/etc/xpdfrc にコピーします。

それから私はそれをテストしました:

ご覧のとおり、見つかりません/lib64/libc.so.6でした。/lib64/libc.so.6ただし、次のように表示されます。

/lib64/libc.so.6次に HostGator に連絡したところ、 が見つからず、Centos 6 64 ビットでは使用できないため、私のサーバーでは機能しないと言われました。

これが本当なら、pdftotextこのサーバーで動作するシンプルで高速な変換を行う代替手段はありますか? が別のバージョンに準拠している可能性はありpdftotextますか? または、パーミッションで間違ってインストールした可能性はありますか?

0 投票する
3 に答える
1984 参照

pdf - PDFからテキストコンテンツを抽出する

pdftotextを使用してPDFからテキストを抽出しています。私もGhostscriptでこれを行いました。最近、ユーティリティプロバイダーがPDFを変更したため、PDFの一部がこれらのメソッドで抽出されていません。具体的には、期日と合計期日がありません。リーダーでPDFを開くと、「欠落している」テキストを強調表示してコピーし、外部エディターに貼り付けることができます。それをAcrobatProで開き、コンテンツを表示すると([表示]->[表示/非表示]->[ナビゲーションペイン]->[コンテンツ])、必要なテキストがそこにあります。手動でコピーして貼り付けることなく、どうすれば取り出すことができますか?(これは何千ものPDFで行うため、オプションではありません)?

これが私が扱っているものの例です。すべての機密データを削除しました:

PDFへのリンク

編集:これを投稿した後、ファイル(Googleドライブでホストされている)へのリンクをたどると、ページ上のほとんどのテキストを選択してコピーできるようになりますが、不足しているものはできません。ファイルをダウンロードすると、PDFリーダーで不足しているテキストを選択できます。

0 投票する
3 に答える
20728 参照

python - PdfMiner と PyPDF2 マージ列を使用してテキストを抽出

pdfMiner を使用して pdf ファイルのテキストを解析しようとしていますが、抽出されたテキストがマージされます。以下のリンクのpdfファイルを使用しています。

PDFファイル

私はあらゆるタイプの出力 (ファイル/文字列) を得意としています。抽出されたテキストを文字列として返すコードを次に示しますが、何らかの理由で列がマージされます。

PyPdf2 も試しましたが、同じ問題に直面しました。PyPDF2 のサンプル コードは次のとおりです。

pdf2txt.pyも試しましたが、フォーマットされた出力を取得できません。

0 投票する
1 に答える
658 参照

poppler - poppler が非標準のディレクトリで追加のエンコーディング データを使用するようにするにはどうすればよいですか?

poppler の一部として pdftotext をテストしています。私が使用している共有ホストにプリインストールされています。などのエラーに対処するために、言語パックを含む poppler エンコーディング データを追加したいと思います"Missing language pack for 'Adobe-GB1' mapping"

共有ホスト ( ) の推奨ディレクトリにエンコーディング データをインストールする権限がないように見える/usr/share/popplerので、データが使用されるようにデータを配置した場所を poppler に伝えるにはどうすればよいですか?

pdftotextのman ページには、データ パッケージを指すフラグが記述されていないようです。

pdftotext は次の場所にあります/usr/bin/pdftotext

0 投票する
2 に答える
354 参照

bash - 複数のPDFファイルのコンテンツを検索し、PDFのファイル名と一致するコンテンツを返しますか?

私はこれを試しました:

このようにしecho "$PDFて、私の単語「回文」が見つかった.pdfファイルから一部のテキストのみを印刷しますが、彼が単語を見つけた.pdfファイル名も知りたいです。

/"$DIRECTORY"/多くのフォルダー、.pdf および .txt ファイルがあるため、テキスト変換が私の単語「回文」と一致する .pdf ファイルのみを返す必要があります。

ありがとう