問題タブ [pdf-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Itext を使用して、フォントが PDF に埋め込まれていない場所またはページを見つけます。
ライブラリを使用Itext
して PDF を操作しています。
この例http://developers.itextpdf.com/examples/itext-action-second-edition/chapter-16#616-listusedfonts.javaを使用して、PDF に埋め込まれていないフォントを見つけています。
ライブラリには、フォントが PDF に埋め込まれていない正確な場所を確認するオプションが用意されていますか?
.net - .net を使用して Pdf 要素を抽出する
無料/有料の .net ライブラリを探して、特定の Acrobat (.pdf) ドキュメントのテキスト/グラフィック/画像要素をできればオブジェクト モデルとして抽出し、独自の WYSIWYG エディターが理解できる別の形式に変換できるようにします。
直接翻訳が不可能な場合は、テキスト要素、形状/グラフィック、画像を個別に取得するためにどのようなアプローチが可能かを確認したいと思います. ターゲット形式では、ページ上の x、y 位置を使用して要素を明示的に配置する必要があり、PDF 抽出ライブラリがページ内の解析された要素の座標を通知する必要があります。
どんな提案でも大歓迎です。
python - Pythonで特定の見出しを持つPDFからデータを抽出する
PythonでPDFファイルを解析したかったのです。私の要件を説明できない PDFMiner の例を見てきました。
たとえば、履歴書を解析したい場合、要約、経験、趣味などのさまざまなフィールドが含まれています。
私は経験のみを抽出することに興味があり、この経験フィールドは 1 位または 2 位、または任意の場所にあります。経験フィールドがどこにあるかを特定し、データを抽出する必要があります。
これどうやってするの?
php - smalot pdfparserを使用してpdfのフォントの詳細を取得するには?
PDFの解析にsmalot pdfparserを使用しています。解析中に、フォント ファミリ、フォント サイズなどのフォントの詳細を取得しようとしています。このAPI Docによると、getFonts および getFont メソッドについて言及されています。私はそれを取得しようとしていますが、いくつかのオブジェクトを取得しています。詳細については、このリンクをたどってください。これは私が使用しているコードです
何かお気づきの点がございましたら、お気軽にお問い合わせください。または、これを達成する他の方法はありますか?
python - struct.error: unpack には長さ 16 の文字列引数が必要です
pdfminer (pdf2txt.py) でPDFファイル (2.pdf)を処理しているときに、次のエラーを受け取りました。
同様のファイル (1.pdf)は問題を引き起こしません。
エラーに関する情報が見つかりません。pdfminer GitHub リポジトリにイシューを追加しましたが、未回答のままでした。なぜこれが起こっているのか誰かが私に説明できますか? 2.pdfを解析するにはどうすればよいですか?
更新: GitHub リポジトリから直接pdfminer をインストールした後ではBytesIO
なく、同様のエラーが発生します。StringIO
java - Jsoup.parse が終了タグを削除しないようにする
Jsoup.parse を使用して html を解析しています。
他のすべては素晴らしいですが、後でpdfコンバーターでこのhtmlを解析することになっています。
何らかの理由で Jsoup.parse が終了タグを削除し、pdf-parser が img 終了タグがないという例外をスローします。
Jsoup.parse が終了 img タグを削除しないようにするにはどうすればよいですか?
たとえば、この行:
次のようになります。
同じことが起こります:
コードは次のとおりです。
上記のメソッドで呼び出される tidyUpHTML メソッドは次のとおりです。
python-2.7 - Pythonを使用してPDFの行を読む
要件 - コード - テストのトレース マトリックスを提供するプログラムを作成しようとしています。
PDFから要件タグを1行ずつ読み取ることができません。
以下は私が試したプログラムです。
PDFの内容は以下のようになります
また、一部のコンテンツがテーブル内にある場合もあります sy 以下のエントリはテーブル内にあります
このような検索の目的は、「{CSD-PROS-PLN-003}」として最上位の要件を取得し、この要件から派生した要件/実装/テストの他の PDF / コード / テストを検索することです。
ありがとう