“pdftotext”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1394 参照

command-line - WindowsとUbuntuサーバーでpdftotextを使用する

私の Windows 7 PC では、コマンドラインに「pdftotext myfile.pdf」と入力すると、myfile.pdf と同じディレクトリに .txt ファイルが作成されます。ただし、ubuntu-12.04 サーバーで同じ myfile.pdf を使用して同じコマンドライン入力を試みると、次のようなエラー出力が表示されます。

等々...

Windows 7 の pdf ユーティリティパッケージは、Linux で利用できるもの (Poppler のもの) とは異なりますか? そうでなければ、同じ呼び出しで同じ結果が得られるはずですよね?

2013-01-26T23:51:24.970

0 投票する

1 に答える

306 参照

windows-7 - pdftotextの出力がWindows7PCとLinuxサーバーで異なるのはなぜですか？

両方のマシンで同じバージョンのxpdfを使用しています。ただし、Windows 7 PCで作成された.txtファイルは、Ubuntu12.04Linuxサーバーで作成されたものとは異なります。Windows 7 .txtファイルは、解析をかなり簡単にする多数の改行で整形式になっています。ただし、Linuxバージョンには改行がまったく含まれていません。Linuxで実行しているときに明示的に呼び出す必要があるWindows7のpdftotextが使用するオプションはありますか？

windows-7 ubuntu-12.04 pdftotext

2013-02-03T13:57:29.217

0 投票する

1 に答える

4613 参照

centos - Centos 6 64ビットのpdftotext?

私は HostGator VPS サーバーを持っており、 ( http://www.foolabs.com/xpdf/download.htmlpdftotext )の一部を実行できるようにしたいと考えています。xpdf

これを私の Mac でテストしたところ、問題なく動作したので、VPS サーバーにインストールしました。

インストール手順に従いましたが、すべて問題なくインストールされました。

実行可能ファイル (xpdf、pdftotext など) を /usr/local/bin にコピーします。

man ページ (*.1 および *.5) を /usr/local/man/man1 および /usr/local/man/man5 にコピーします。

sample-xpdfrc ファイルを /usr/local/etc/xpdfrc にコピーします。

それから私はそれをテストしました：

ご覧のとおり、見つかりません/lib64/libc.so.6でした。/lib64/libc.so.6ただし、次のように表示されます。

/lib64/libc.so.6次に HostGator に連絡したところ、が見つからず、Centos 6 64 ビットでは使用できないため、私のサーバーでは機能しないと言われました。

これが本当なら、pdftotextこのサーバーで動作するシンプルで高速な変換を行う代替手段はありますか? が別のバージョンに準拠している可能性はありpdftotextますか? または、パーミッションで間違ってインストールした可能性はありますか?

centos hosting pdftotext xpdf centos6

2013-02-12T00:39:19.800

0 投票する

3 に答える

1984 参照

pdf - PDFからテキストコンテンツを抽出する

pdftotextを使用してPDFからテキストを抽出しています。私もGhostscriptでこれを行いました。最近、ユーティリティプロバイダーがPDFを変更したため、PDFの一部がこれらのメソッドで抽出されていません。具体的には、期日と合計期日がありません。リーダーでPDFを開くと、「欠落している」テキストを強調表示してコピーし、外部エディターに貼り付けることができます。それをAcrobatProで開き、コンテンツを表示すると（[表示]->[表示/非表示]->[ナビゲーションペイン]->[コンテンツ]）、必要なテキストがそこにあります。手動でコピーして貼り付けることなく、どうすれば取り出すことができますか？（これは何千ものPDFで行うため、オプションではありません）？

これが私が扱っているものの例です。すべての機密データを削除しました：

PDFへのリンク

編集：これを投稿した後、ファイル（Googleドライブでホストされている）へのリンクをたどると、ページ上のほとんどのテキストを選択してコピーできるようになりますが、不足しているものはできません。ファイルをダウンロードすると、PDFリーダーで不足しているテキストを選択できます。

pdf ghostscript pdftotext

2013-02-20T17:26:02.313

0 投票する

3 に答える

20728 参照

python - PdfMiner と PyPDF2 マージ列を使用してテキストを抽出

pdfMiner を使用して pdf ファイルのテキストを解析しようとしていますが、抽出されたテキストがマージされます。以下のリンクのpdfファイルを使用しています。

PDFファイル

私はあらゆるタイプの出力 (ファイル/文字列) を得意としています。抽出されたテキストを文字列として返すコードを次に示しますが、何らかの理由で列がマージされます。

PyPdf2 も試しましたが、同じ問題に直面しました。PyPDF2 のサンプルコードは次のとおりです。

pdf2txt.pyも試しましたが、フォーマットされた出力を取得できません。

python pypdf pdftotext

2013-04-01T04:54:37.370

0 投票する

1 に答える

658 参照

poppler - poppler が非標準のディレクトリで追加のエンコーディングデータを使用するようにするにはどうすればよいですか?

poppler の一部として pdftotext をテストしています。私が使用している共有ホストにプリインストールされています。などのエラーに対処するために、言語パックを含む poppler エンコーディングデータを追加したいと思います"Missing language pack for 'Adobe-GB1' mapping"。

共有ホスト ( ) の推奨ディレクトリにエンコーディングデータをインストールする権限がないように見える/usr/share/popplerので、データが使用されるようにデータを配置した場所を poppler に伝えるにはどうすればよいですか?

pdftotextのman ページには、データパッケージを指すフラグが記述されていないようです。

pdftotext は次の場所にあります/usr/bin/pdftotext

poppler pdftotext

2013-04-27T06:45:56.990

0 投票する

2 に答える

354 参照

bash - 複数のPDFファイルのコンテンツを検索し、PDFのファイル名と一致するコンテンツを返しますか?

私はこれを試しました：

このようにしecho "$PDFて、私の単語「回文」が見つかった.pdfファイルから一部のテキストのみを印刷しますが、彼が単語を見つけた.pdfファイル名も知りたいです。

/"$DIRECTORY"/多くのフォルダー、.pdf および .txt ファイルがあるため、テキスト変換が私の単語「回文」と一致する .pdf ファイルのみを返す必要があります。

ありがとう

bash unix pdf find pdftotext

2013-04-28T13:07:05.130

問題タブ [pdftotext]

Reference