問題タブ [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1435 参照

pdftotext - pdftohtml の代替案

私は pdftohtml を試していますが、テーブルを正しく解析するのが難しい場合があります。2 つの列のテキストを 1 つのセルにグループ化しているため、結果のデータを解析しようとしても無駄です!

これは PDF 内で 1 回か 2 回しか発生しないため、まったく予測できないことに注意してください。

pdftohtml の最新バージョン (0.40a ベータ版を含む) を試しましたが、役に立ちませんでした。

試してみる価値のある Linux 互換の同等品を知っている人はいますか?

ありがとう、

サム

0 投票する
1 に答える
877 参照

python - PDFtotext - コマンドラインで aacute として表示される空白

pdftotextを使用してpdfから作成されたテキストファイルからpythonを使用してテキストを抽出しています。これは 2000 個のファイルのうちの 1 つであり、この特定のファイルでは、キーワードの行が EU で終わっています。行の残りの部分は肉眼では空白であり、次の行も同様です。

プログラムは通常、行末の末尾の空白を取り除き、後続の空白行を無視します。

この例では、「EU.」の間の textfile で、同様に html で印刷したときに表示される空白を保存しています (Simile Exhibit)。

コマンドラインにも出力しましたが、ここに aacute の文字列が表示されます。[?]

これに対処する明白な方法は、accute を検索して置き換えることだと思いました。私はコンパイルステートメントでそれをやろうとしましたが、着信テキストをデコードする順列で遊んだことがあります。

奇妙なことに、"\255" を印刷すると、aacute が表示されず、o Grave が表示されます。

この奇妙なエラーの組み合わせにより、私は何か基本的なことを誤解しているようです。これを解き始める方法のヒントはありますか?

どうもありがとう。

0 投票する
2 に答える
2279 参照

curl - Solr Index PDFドキュメントを作成し、リモートサーバーに投稿します

こんにちは私はSolrに関してはナイーブなユーザーです。次のハードルを教えてください。

1)SolrIndexPDFドキュメント

解決策を試しました

tika-app 0.9.jarを使用して、入力PDFファイルからテキストファイルにコンテンツを抽出しました。今、私はドキュメントをSolrにインデックス付けするJavaコードを書き込もうとしています。

2)それらをリモートサーバーに投稿する

ドキュメントまたはインデックスのいずれかを中央のリモートサーバーに投稿する必要があります。これにはcurlコマンドを使用できますか。

バラジよろしく。

0 投票する
1 に答える
7268 参照

java - Java を使用して PDF ドキュメントに行を追加したい

私は現在PDFBoxを使用しており、フォルダー1にあるa.pdf内から読んでいます

最初に、フォルダー内で見つかったすべての Pdf ファイルを一覧表示します。次に、各ファイルのページ数を確認します。ここで、フッターの下のファイルの最後に移動して、プリンターが認識できる画像を追加して、ファイルの終わりに達したことを認識するため、ページをステープルします。

ファイルのリストとページ数を取得するまでにたどり着きました。

最後のページの最後に移動してそこに書き込むには、どのコマンドを使用すればよいですか?

.pdf ファイルをテキストに変換する必要がありますか、それとも PDPageContentStream を使用できるようにする必要がありますか

これは私が現在使用しているコードで、AAA 文字列が pdf ファイルの最後のページに挿入されるかどうかをテストして確認しようとしています。プロジェクトはエラーなしで実行されていますが、何らかの理由で pdf に挿入されていません。

ご清聴ありがとうございました


上記で使用していたコードは正しいです。問題は、生成される PDF ファイルがバージョン 1.2 であることです。これが、pdf ドキュメントの編集を許可されていない理由です。

バージョン1.2を使用している場合、実際にアップグレードできないため、どうすればよいか誰か知っていますか.

0 投票する
3 に答える
4984 参照

pdf - pdftotextなしでPDFをテキストに変換しますか?

PDFをテキストに変換する必要があり、現在使用していpdftotext.exeます。これにより、結果のテキストが時々台無しになるため、使用できません。

別のプログラムから呼び出すことができる別の無料ツールはありますか? コマンドラインツールの方がいいです。

0 投票する
3 に答える
1948 参照

c# - Foxit SDK を使用してテキスト形式の pdf を抽出する

Foxit SDKを使用して、PDF ドキュメントからテキストを抽出しています。

すべて問題ありませんが、英語ではなく他の言語で pdf を抽出すると、正しい出力が得られません。

Java で PDFBox も使用しましたが、最悪の出力が得られます。Foxit SDK からの出力は PDFBox よりも優れています。

問題を解決できる他のライブラリはありますか..? または、他の解決策があります。

0 投票する
2 に答える
613 参照

php - ディレクトリ全体をpdftotextするshell_exec()ステートメント?

ステートメントpdftotextを介してディレクトリ全体へのループを構築する方法について、私は途方に暮れています。shell_exec()

何かのようなもの :

$pdfsしかし、shell_exec()ステートメントで2回目に呼び出したときに.pdf拡張子を削除して、それを次のように置き換える方法がわかりません。.txt

このループが正しいかどうかもわかりません。

0 投票する
1 に答える
1567 参照

c# - itextsharp PdfTextExtractor のスペルが間違っている単語

私たちのデータベースにはバイナリ形式の PDF があります。私はそれをストリーミングして PDF ファイルとして保存し、両方のソースでテストしましたが、最終的に同じ結果になりました。PdfTextExtractor の綴りがいくつか間違っています。

たとえば、PDF に「確認済み」という単語があります。PdfTextExtractor が変換すると、「確認済み」と綴られます。

デバッグでプロセスをステップ実行すると、PdfTextExtractor によって変換された直後にスペルが間違っているため、自分の側で行っていることが原因で不正確ではないと確信しています。

PdfTextExtractor の精度を向上させるためにできることはありますか?

現在使用しているコードは次のとおりです。

0 投票する
1 に答える
2244 参照

php - PHPで使用できる長方形の領域からPDFからテキストを抽出するのに役立つライブラリはありますか?

左、上、幅、高さのパラメータで指定された指定された長方形の領域からPDFテキストを抽出するのに役立つ(できれば無料の)ライブラリを探しています。Linux システム上の PHP で使用できるはずです。そのようなライブラリと実用的な例を提案していただけますか?

0 投票する
1 に答える
690 参照

php - PHP - PDF をテキストに変換 (exec/shell_exec へのアクセスなし)

ケース:

  • サーバーは exec/shell_exec をサポートしていません (したがって pdftotext は除外されます)
  • 他のライブラリは PDF を受け入れません。Pdftotext は動作します (ファイルでローカルにテスト済み)

(PDF)コードからの抜粋を次に示します。

クリエイターについて:

exec/shell_exec 関数を使用せずに、これを PHP でプレーン テキストに変換する方法について、いくつかの提案を得たいと思います。

ありがとうございました。

( http://webcheatsheet.com/php/reading_clean_text_from_pdf.phpのような他のソリューションは機能せず、少なくともこのコードを ASCII コードのようなものに変換することはできませんでした。)