問題タブ [pdf-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
objective-c - CGPDFOperator C 関数内から Objective-C クラスのプロパティを読み書きできない
OK、だから私はから実行されているCコールバック関数を使用していCGPDFScanner
ます. これらの関数は、と呼ばれるプロパティで呼び出されるクラス内にPDFContentStreamProcessor
ありNSMutableArray
ますmyArray
ARC は有効になっていますが、このクラスのビルド フェーズで例外を作成しました。
テキスト、整数、およびオブジェクトは問題なく検出されますが、値をどこにも格納できなければ、あまり処理できません。何か案は?
私もこの方法で試しました:
...また、運が悪い
c# - クリック可能なコンテンツページを含むpdfファイルの解析
クリック可能なコンテンツ ページを持つ pdf ファイルがあるとします。(私は章とサブチャプターについて話している)その特定のファイルをC#で解析するにはどうすればよいですか?アプリケーションは、読み込んでいるpdfに章/コンテンツなどがあるかどうかをどのように認識できますか?
これは、クリック可能な目次のない PDF へのリンク ですhttps://docs.google.com/open?id=0B1EbI-EMJxmkODE1Mm5WbFpEdXcここでそれを行います http://everythingyoumightneed.blogspot.com/2013/01/how-to-create-pdf-with-clickable-links.html
だから私の質問は次のとおりです。アプリはどのようにしてどれがどれであるかを区別し、クリック可能なリンクを持つものをどのように解析できますか?
java - JavaのURLからPDFを解析します。jsoupを使用できますか?
私はURLを持っています:http://pasca.undiksha.ac.id/e-journal/index.php/jurnal_bahasa/article/view/500(pdfに直接アクセスするのではなく、pdfファイルに送信されます。このpdfを解析したいファイルを作成してPDFテキストを取得します。jsoupを使用してみます: `
出力は次のとおりです。
何か考えがありますか?ありがとう
pdf - XRef テーブルと XRef ストリームの混合
PDF ファイルに共通の XRef テーブルと XRef ストリームを含めることができないのは本当ですか? これはいわゆる「ハイブリッド PDF ドキュメント」だと思いました。
何か案が?
pdf - XREFストリームでPDFに注釈を付けようとしています
私はこのサンプルPDFファイルを持っています:
これにテキスト注釈を付けようとしましたが、その結果、次のようになりました。
ただし、MAC OSXでのプレビューでは、新しい注釈のないドキュメントが表示され、AdobeReaderは注釈付きのドキュメントを開くことさえできません。
このドキュメントを開くときにエラーが発生しました。ファイルが破損しているため、修復できませんでした。
これまでは、エンコードされたファイルではなく、「クラシックXREFテーブル」を持つ他のファイルに注釈を付けることができてとても幸運でした。ただし、独自にエンコードされたXREFストリームを作成しても機能しないようです。私のストリームは大丈夫だと確信していますが、それでも私が見逃している何か他のものである可能性がありますか?
parsing - haskell - .pdf ファイルのコンテンツの解析/読み取り
haskell で .pdf ファイルを復号化し、コンテンツを読み込んで文字列を返す可能性はありますか? そして、もしあれば、例えば次のような小さな例を教えてください:
前もって感謝します。
よろしく、 ジミー
parsing - Tika1.3 (+lucene4.2) を使用して pdf を解析できません
PDFファイルを解析してそのメタデータとテキストを取得しようとしていますが、まだ必要な結果が得られません。私はそれがばかげた間違いだと確信していますが、私はそれを見ることができません.ファイルd.pdfが存在し、プロジェクトのルートフォルダにあります.インポートも正しいです.
出力:エラーはありませんが、..あまりエラーもありません:(
python - pdf2txt の出力にあるこれ (cid:51) は何ですか?
だから私はpdfファイルからテキストを抽出しようとしています.その位置、幅、高さ、フォントが必要です.
私は多くのことを試しましたが、最も便利で完全なソリューションはPDFMinerであり、この場合、より正確にはpdf2txt.pyです。
ドキュメントと例に従い、次のLearn More
コマンドを使用してpdfからテキストを抽出しようとしました:
出力buttons.xml
は次のようになります。
最初の文字は L である必要があり、 ascii テーブルとutf-8 テーブルに関して、 51(cid:51)
は文のどの文字にも一致しないようです
タイトルが示すように、それは何なのか、そしてこれらをどのように使用するの(cid:51)...
だろうか?
編集
そのため、実際の文字を取得する代わりに、プログラムが書き込む (cid:%d) ことがわかりました。これは、それが Unicode 文字列であることを認識していないためです。
最初にこの関数を呼び出して、char を書き込みます。
しかし、assert
失敗してPDFUnicodeNotDefined
キャッチされて呼び出されるイベントを発生させます:
そして、これらすべてを含むファイル (cid:%d) で終了する方法です。
私はPythonにかなり慣れていないので、これらの文字を認識する方法を見つけようとしています.1つでなければなりませんか?誰にもアイデアはありますか?
c# - get text paragraph from pdf using itextsharp
is there any logic to get paragraph text from pdf file using itextsharp?i know pdf only supports run of texts and its hard to determine which runs of texts are related to which paragraph and also i know that there isn't any <p>
tags or other tags to determine paragraph in pdf..However i have tried to get coordinate of runs of texts to build paragraph from its coordinate but with no luck :(.
my code snippet is here:
Do any body have any logic related to this issue??