問題タブ [pdf-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
55 参照

objective-c - CGPDFOperator C 関数内から Objective-C クラスのプロパティを読み書きできない

OK、だから私はから実行されているCコールバック関数を使用していCGPDFScannerます. これらの関数は、と呼ばれるプロパティで呼び出されるクラス内にPDFContentStreamProcessorありNSMutableArrayますmyArray

ARC は有効になっていますが、このクラスのビルド フェーズで例外を作成しました。

テキスト、整数、およびオブジェクトは問題なく検出されますが、値をどこにも格納できなければ、あまり処理できません。何か案は?

私もこの方法で試しました:

...また、運が悪い

0 投票する
2 に答える
4661 参照

c# - クリック可能なコンテンツページを含むpdfファイルの解析

クリック可能なコンテンツ ページを持つ pdf ファイルがあるとします。(私は章とサブチャプターについて話している)その特定のファイルをC#で解析するにはどうすればよいですか?アプリケーションは、読み込んでいるpdfに章/コンテンツなどがあるかどうかをどのように認識できますか?

これは、クリック可能な目次のない PDF へのリンク ですhttps://docs.google.com/open?id=0B1EbI-EMJxmkODE1Mm5WbFpEdXcここでそれを行います http://everythingyoumightneed.blogspot.com/2013/01/how-to-create-pdf-with-clickable-links.html

だから私の質問は次のとおりです。アプリはどのようにしてどれがどれであるかを区別し、クリック可能なリンクを持つものをどのように解析できますか?

0 投票する
2 に答える
5545 参照

java - JavaのURLからPDFを解析します。jsoupを使用できますか?

私はURLを持っています:http://pasca.undiksha.ac.id/e-journal/index.php/jurnal_bahasa/article/view/500(pdfに直接アクセスするのではなく、pdfファイルに送信されます。このpdfを解析したいファイルを作成してPDFテキストを取得します。jsoupを使用してみます: `

出力は次のとおりです。

何か考えがありますか?ありがとう

0 投票する
1 に答える
1165 参照

pdf - XRef テーブルと XRef ストリームの混合

PDF ファイルに共通の XRef テーブルと XRef ストリームを含めることができないのは本当ですか? これはいわゆる「ハイブリッド PDF ドキュメント」だと思いました。

何か案が?

0 投票する
1 に答える
812 参照

pdf - XREFストリームでPDFに注釈を付けようとしています

私はこのサンプルPDFファイルを持っています:

元のファイル

これにテキスト注釈を付けようとしましたが、その結果、次のようになりました。

注釈付きファイル

ただし、MAC OSXでのプレビューでは、新しい注釈のないドキュメントが表示され、AdobeReaderは注釈付きのドキュメントを開くことさえできません。

このドキュメントを開くときにエラーが発生しました。ファイルが破損しているため、修復できませんでした。

これまでは、エンコードされたファイルではなく、「クラシックXREFテーブル」を持つ他のファイルに注釈を付けることができてとても幸運でした。ただし、独自にエンコードされたXREFストリームを作成しても機能しないようです。私のストリームは大丈夫だと確信していますが、それでも私が見逃している何か他のものである可能性がありますか?

0 投票する
1 に答える
1359 参照

parsing - haskell - .pdf ファイルのコンテンツの解析/読み取り

haskell で .pdf ファイルを復号化し、コンテンツを読み込んで文字列を返す可能性はありますか? そして、もしあれば、例えば次のような小さな例を教えてください:

前もって感謝します。

よろしく、 ジミー

0 投票する
0 に答える
129 参照

parsing - Tika1.3 (+lucene4.2) を使用して pdf を解析できません

PDFファイルを解析してそのメタデータとテキストを取得しようとしていますが、まだ必要な結​​果が得られません。私はそれがばかげた間違いだと確信していますが、私はそれを見ることができません.ファイルd.pdfが存在し、プロジェクトのルートフォルダにあります.インポートも正しいです.

出力:エラーはありませんが、..あまりエラーもありません:(

0 投票する
1 に答える
6362 参照

python - pdf2txt の出力にあるこれ (cid:51) は何ですか?

だから私はpdfファイルからテキストを抽出しようとしています.その位置、幅、高さ、フォントが必要です.

私は多くのことを試しましたが、最も便利で完全なソリューションはPDFMinerであり、この場合、より正確にはpdf2txt.pyです。

ドキュメントと例に従い、次のLearn Moreコマンドを使用してpdfからテキストを抽出しようとしました:

出力buttons.xmlは次のようになります。

最初の文字は L である必要があり、 ascii テーブルutf-8 テーブルに関して、 51(cid:51)は文のどの文字にも一致しないようです

タイトルが示すように、それは何なのか、そしてこれらをどのように使用するの(cid:51)...だろうか?


編集

そのため、実際の文字を取得する代わりに、プログラムが書き込む (cid:%d) ことがわかりました。これは、それが Unicode 文字列であることを認識していないためです。

最初にこの関数を呼び出して、char を書き込みます。

しかし、assert失敗してPDFUnicodeNotDefinedキャッチされて呼び出されるイベントを発生させます:

そして、これらすべてを含むファイル (cid:%d) で終了する方法です。

私はPythonにかなり慣れていないので、これらの文字を認識する方法を見つけようとしています.1つでなければなりませんか?誰にもアイデアはありますか?

0 投票する
1 に答える
2791 参照

c# - get text paragraph from pdf using itextsharp

is there any logic to get paragraph text from pdf file using itextsharp?i know pdf only supports run of texts and its hard to determine which runs of texts are related to which paragraph and also i know that there isn't any <p> tags or other tags to determine paragraph in pdf..However i have tried to get coordinate of runs of texts to build paragraph from its coordinate but with no luck :(. my code snippet is here:

Do any body have any logic related to this issue??