問題タブ [pdf-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - タグなしのPDFファイルをiTextで解析する方法
このファイル ( http://www.bbm.ca/_documents/top_30_tv_programs_english/2011/nat01032011.pdf ) を iText で解析したいと思います。問題は、タグ付けされていないため、XML ファイルを取得できないことです。そこからテキストを抽出することにしました。たとえば、最初の行は次のようになると思いました。
最初の行で抽出したテキストは
を使用してテキストを抽出しました:
PDF ビューアは、CANADA が 3 列目ではなく 2 列目にあることをどのように認識していますか。
私の現在の解決策は、各列のテキストを決定できるhttp://www.idrsolutions.com/online-pdf-to-html5-converter/を使用してpdfファイルをhtml5に変換することです。
ご返信ありがとうございます
pdf - PDF ドキュメント内のテキストの FlateDecoded セクションのデコード
peepdfを使用して、2 つの単純な pdf ファイルを分析しています。どちらのファイルも 1 行のテキスト (「ZYXWVUTSRQQRSTUVWXYZ」) を含み、Mac OS X で作成されました。
最初のファイルは TextEdit で作成されました。ストリームは 3 つしかなく、最初のストリーム (peepdf で自動的にデコードされます) を見ると、テキストがはっきりとわかります。
2 番目のファイルは MS Word で作成されました。4 つのストリームがありますが、デコードされたテキストはどこにもありません。Word ドキュメントで対応するストリームを調べても、デコードされた文字列は明らかになりません。
文字列がファイルのどこにあるのか、このストリーム内の情報が何を意味するのか、私にはわかりません。洞察はありますか?
php - PHP: 制御文字でいっぱいの解析済み PDF ファイル
この pdf ファイルの解析で問題が発生しました:
FlateDecode でデコードされた pdf ファイルをエンコードした後、出力は次のようになります。
通常、テキスト コンテンツは常に開いた "(" と閉じた ")" ブラケット内にあるため、コンテンツを解析するのは簡単ですが、この pdf ファイルは頭痛の種です。括弧内に制御文字があるだけのようです。
私の現在の出力は次のとおりです。
これについて手がかりを持っている人はいますか?私は何を間違っていますか?
pdf - iTextSharp 4.1.6 と 5.x バージョンの違い
私たちは、私たちのシステムと一緒に使用する Pdf パーサーを開発しています。要件は、すべての情報を pdf ドキュメントに保存し、ドキュメントをそのまま (元のドキュメントからの変更を最小限に抑えて) 複製できるようにすることです。
グーグルで調べたところ、iTextSharp が私たちの目的に最適なパートナーであることがわかりました。.net を使用してプロジェクトを開発しています。
タイトルで述べたように、iTextSharp の特定のバージョン (4.1.6 と 5.x) の比較が必要であると推測したかもしれません。4.1.6 が LGPL/MPL ライセンスを持つ iTextSharp の最後のバージョンであることはわかっています。5.x バージョンは AGPL です。
LGPL バージョンを選択する前、または AGPL のライセンスを購入する前に、バージョンをよく比較したいと考えています (コードを公開したくありません)。
iTextSharp のリビジョンの変更をブラウジングしましたが、コンテンツが存在するかどうかを知りたいので、バージョン間の比較を行います。
前もって感謝します!
java - IText を使用して PDF ファイルを解析し、既存のテキストにハイパーリンクを追加する
PDF は編集用ではないことはわかっていますが、PDF を解析して変更し、すべてのテキスト要素をハイパーリンクに変換する必要があるという要件があります。これを達成する方法はありますか?
どうもありがとう、
python - 何千もの PDF ファイルのテーブルをスクレイピングする方法は?
それぞれ 1 ページのみで構成され、同じ構造を示す約 1,500 の PDF があります (例については、http://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf を参照してください)。
私が探しているのは、これらすべてのファイルを (可能であればローカルで) 反復処理し、テーブルの実際の内容を抽出する方法です (CSV として、SQLite DB に保存されます)。
Node.jsでこれをやりたいのですが、そのようなものを解析するための適切なライブラリが見つかりませんでした. どれか知っていますか?
Node.js で不可能な場合は、より良い方法が利用できる場合、Python でコーディングすることもできます。
c# - C#を使用して非フォームPDFでチェックボックスがチェックされているかどうかを確認するには?
C# を使用して、PDF ページで特定のチェック ボックスがオンになっているかどうかを確認したいと考えています。PDFファイルはフォームファイルではありません。
PDF は次のようなものです。
サンプル ファイルは次のとおりです: MDS30ResidentP2.pdf (このサンプル ファイルでは、質問 A1000 のチェック ボックス「E」がオンになっていることを何とか理解したいと思います。繰り返しますが、PDF は「フォーム」形式ではありません!)。
PS:次の投稿のどれも私の問題を解決しませんでした:
java - PDFリテラル文字列解析のジレンマを読む
別の ObjectX で、同じ PDF ページに次の内容があります。
最初:
これまでのところ、非常にシンプルで基本的な...
第二:
注: 上記のテキストでは目立ちませんが、
「HTMLE xampl e」は実際には0H0T0M0L 0[32] 0E0x0a0m0p0l0eであり、各 0 はリテラル値 0 == ((char)0)なので、すべての 0 値を無視すると、これは実際には上の例のようになります...
いくつかのバイト:
しかし、次の行では、次の理由により、2 バイトごとに 1 つの文字に結合する必要があります。
< ¬ ¬ ¬...> は実際には <0[32][32]¬0[32][32]¬0[32][32]¬...> で、[32]¬ の組み合わせは €< /p>
私が直面している問題は、私が使用する変換自体ではありません: new String(sb.toString().getBytes("UTF-8"),"UTF-16BE")
問題は、それをいつ適用し、いつ UTF-8 を維持するかを知ることです。
==更新==
問題のあるオブジェクトに使用されているフォントは次のとおりです。
フォントのエンコーディングタイプへの指示はありません。
==更新==
ToUnicode オブジェクトに関しては、これらのフォントの場合は必要ありませんが、Identity-H である必要がありますが、代わりに X == X マッピングです。FFFF から FFFF までの例を次に示します。
したがって、マッピングは ToUnicode オブジェクトにはありませんが、それでも他のレンダラーはうまくレンダリングできます!
何か案は?