問題タブ [pdf-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
456 参照

ios - Pdf 解析、テキストを解凍する方法

こんにちは、pdf ファイルを解析しようとしています。pdf からテキストを抽出することはできますが、pdf が (flatedecode を使用して) 圧縮されている場合、ジャンク文字が発生するため、テキストを解凍する方法と、使用されているフィルターを知る方法を知る必要があります。 ?

0 投票する
2 に答える
8807 参照

pdf - HadoopMapReduceでのPDFファイルの解析

HadoopのMapReduceプログラムのHDFSにあるPDFファイルを解析する必要があります。したがって、入力分割としてHDFSからPDFファイルを取得し、それを解析してMapperクラスに送信する必要があります。このInputFormatを実装するために、私はこのリンクを通過しました。これらの入力分割をどのように解析してテキスト形式に変換できますか?

0 投票する
2 に答える
5866 参照

java - PDF から文字列位置を含むすべてのテキストを抽出する

これは古い質問のように思えるかもしれませんが、30分かけてSO全体を検索した後も、網羅的な答えは見つかりませんでした。

私は PDFBox を使用しており、各文字列の座標とともに PDF ファイルからすべてのテキストを抽出したいと考えています。私は彼らのPrintTextLocations例(http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/PrintTextLocations.html)を使用していますが、私が使用している種類のpdf(Eチケット)ではプログラムが失敗します文字列を認識し、各文字を個別に出力します。TextPosition出力は、次のような文字列 (それぞれがオブジェクトを表す) のリストです。

プログラムに文字列「sale」を一意として認識さTextPositionせ、その位置を教えてもらいたいのですが。setSpacingTolerance()また、メソッドとメソッドを試してみてsetAverageCharacterTolerance() PDFTextStripper、標準値の上と下に異なる値を設定しました (FYI はそれぞれ 0.5 と 0.3 です)が、出力はまったく変化しませんでした。どこが間違っていますか?前もって感謝します。

0 投票する
1 に答える
571 参照

objective-c - iOS の PDF パッケージ

私はしばらくの間、PDF パッケージに含まれる PDF ドキュメントを抽出できるように試みてきましたが、うまくいきませんでした。ドキュメントやサンプル コードはどこにも見つかりませんでしたが、Adobe Reader アプリと PDFExpert アプリがサポートしているので、不可能ではないことはわかっています。彼らが独自のパーサーを持っている可能性はありますが、そうならないことを願っています...

私を正しい方向に向けるヒントは大歓迎です

編集:久しぶりに私はこれに取り組み、ついにそれを理解しました。私を正しい方向に向けてくれたiPDFDevに感謝します!!

各内部 CGPDFDocumentRef を取得する方法のコードは次のとおりです。

0 投票する
0 に答える
663 参照

java - iTextのサイズまたは色に従ってPDFからテキストを抽出する

同様のレイアウトのPDFファイルがいくつかあります。

たとえば、紹介部分のフォントの色とサイズは同じです。

このテキストプロパティ情報を使用して、これらのPDFファイルから紹介部分を抽出したいのですが、メソッドが見つかりませんでした。

たとえば、#333333のようなパラメータを指定すると、PDFから#333333カラーのテキストのみが返されます。出来ますか?

私はiTextライブラリを使用しています。

ありがとう..

0 投票する
3 に答える
9074 参照

c# - PDFファイルで空白ページを見つける方法

PDFファイルの空白ページを検出できません。インターネットで検索しましたが、良い解決策が見つかりませんでした。

Itextsharp を使用して、ページ サイズ、Xobjects で試しました。しかし、正確な結果は得られません。

私は試した

しかし、最大時間は間違った答えを返します。Itextsharpを使用しました

コードは以下のとおりです...私はItextsharp Librabryを使用しています

xobjects の場合

コンテンツストリーム用

テキストコンテンツ用

0 投票する
2 に答える
1777 参照

pdf - PDFからデータを抽出する

主にデータテーブルなどのpdfファイルからデータを抽出する方法など、直接実行できる無料またはオープンソースのツールがあります。大量のファイルを処理する必要がある

0 投票する
0 に答える
110 参照

pdf - 埋め込まれた Adob​​e PDF Reader テキストのエクスポート

Windows アプリケーションに Adob​​e PDF Reader が埋め込まれています。特定の PDF ファイルを開くときに、その PDF 内のテキストを手動で選択し、テキスト ボックスに転送する必要があります。私は、PDF 埋め込みコンポーネントをあまり扱っていません。しかし、2 つの解決策が考えられます。埋め込みコンポーネントで選択したテキストを取得できる場所を見つけるか、クリップボードを使用して選択したテキストを切り取ってテキストボックスに転送します。

誰でもこれで私を助けることができますか?簡単に言えば、埋め込まれたPDFリーダーコンポーネントでテキスト(選択されているかどうかにかかわらず)にアクセスする最良の方法を知りたいです。

0 投票する
5 に答える
15659 参照

python - PDFMinerを使用して/RootオブジェクトのないPDFを解析する

PDFMiner pythonバインディングを使用して、多数のPDFからテキストを抽出しようとしています。私が書いたモジュールは多くのPDFで機能しますが、PDFのサブセットでこのやや不可解なエラーが発生します。

ipythonスタックトレース:

もちろん、すぐにこれらのPDFが破損していないかどうかを確認しましたが、問題なく読み取ることができます。

ルートオブジェクトがないにもかかわらず、これらのPDFを読み取る方法はありますか?ここからどこへ行けばいいのかよくわかりません。

どうもありがとう!

編集:

私はいくつかの鑑別診断を得るためにPyPDFを使ってみました。スタックトレースは次のとおりです。

Quonuxは、おそらくPDFMinerが最初のEOF文字に達した後に解析を停止したことを示唆しました。これは別のことを示唆しているように見えますが、私は非常に無知です。何かご意見は?

0 投票する
3 に答える
2846 参照

java - PDFを解析するときの奇妙な空白

PDFドキュメントを解析する必要があります。私はすでにパーサーを実装し、Library iTextを使用しましたが、これまでは問題なく機能していました。

しかし、単語の途中に非常に奇妙な空白が含まれる別のドキュメントを解析する必要はありません。例として、私は次のようになります。

Vo rber eitung auf dieMotorradsaison。Viele Motorr adf ahr er

すべての太字の単語を接続する必要がありますが、どういうわけかPDFパーサーは単語に空白を追加しています。しかし、PDFからテキストファイルにコンテンツをコピーして貼り付けると、これらのスペースが表示されません。

最初は、使用しているPDF解析ライブラリが原因だと思いましたが、別のライブラリでもまったく同じ問題が発生します。

解析された単語からを見てみるとsingleSpaceWidth、空白を追加しているときは常に変化していることに気づきました。手動で組み合わせてみました。しかし、単語を再結合するパターンは実際にはないため、ほとんど不可能です。

他の誰かが同様の問題またはその問題の解決策を持っていましたか?

要求に応じて、ここにいくつかの詳細情報があります:

SemTextExtractionStrategyを使用した解析:

ここでは、実際にテキストを解析するSemTextExtractionStrategyメソッドを示しています。そこで、解析されたすべての単語の後に空白を手動で追加しますが、どういうわけか、検出で単語を分割します。

これがSemTextExtractionクラス全体ですが、ここでは上記のメソッド(parseText)のみを呼び出します。