問題タブ [pdf-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
6 に答える
26483 参照

ruby-on-rails - Ruby: PDF ファイルを読む

Ruby(LinuxおよびOSX上)で大きなPDFファイルを読み取り/解析するための高速で信頼性の高い方法を探しています。

今まで、かなり古くてシンプルなPDF ツールキット( pdftotext -wrapper) とPDF-readerを見つけましたが、ほとんどのファイルを読み取ることができませんでした。2 つのライブラリは、私が探していた機能を正確に提供します。

私の質問: 何か見逃したことがありますか? 問題を解決するのにより適した (より高速で信頼性の高い) ツールはありますか?

0 投票する
1 に答える
274 参照

database - 大量の PDF を解析する方法

文ごとに解析できるようにしたいPDFがたくさんあります。PDF を mysql に変換し、文章を 1 つずつ読み上げるための MySQL (またはその他のデータベース システム) 用のツールはありますか? これを行うための他のツールはありますか?すべてのpdfをDBにロードしてから読み取るのが最速の方法だと想像しましたが、よくわかりません...

0 投票する
3 に答える
218 参照

c# - 最高のPDRパーサーはどれですか?

ファイルから表形式の情報を解析し、その表形式の情報をC#.pdfで表示したいと思います。datagridviewどのような選択肢がありますか?

0 投票する
2 に答える
7824 参照

pdf - PDF相互参照ストリーム

PDF パーサー/ライターを開発していますが、相互参照ストリームの生成に行き詰まっています。私のプログラムはこのファイルを読み取り、その線形化を削除して、オブジェクト ストリーム内のすべてのオブジェクトを解凍します。最後に、PDF ファイルをビルドして保存します。

このファイルでわかるように、通常の相互参照と予告編を使用すると、これは非常にうまく機能します。

代わりに相互参照ストリーム オブジェクトを生成しようとすると (結果としてこのファイルが生成され、Adobe Reader では表示できません。

PDFの経験があり、問題が何であるかを検索するのを手伝ってくれる人はいますか?

相互参照は、ファイル 2 とファイル 3 の唯一の違いであることに注意してください。最初の 34127 バイトは同じです。

デコードされた参照ストリームのコンテンツが必要な場合は、このファイルをダウンロードして、HEX エディターで開いてください。この参照表を何度も確認しましたが、間違いは見つかりませんでした。しかし、辞書も大丈夫のようです。

助けてくれてありがとう!!!

アップデート

私は今、問題を完全に解決しました。新しい PDFはこちらからご覧いただけます

0 投票する
1 に答える
986 参照

perl - Perl PDF行ごとのパーサー?

私はPDFを持っており、テキストのみで構成されており、特殊文字や画像などはありません。各ページを1行ずつ解析するのに役立つPerlモジュールはありますか(cpanを見て無駄になっています)。(PDFをテキストに変換すると、悪い結果と解析できないデータが生成されます)

ありがとう、

0 投票する
2 に答える
1885 参照

java - pdfはjavaのテキストに解析します

アラビア語のPDFがあり、Javaを使用してテキストドキュメントに解析したいと思います。私は何度も試しましたが、英語の単語は正常に解析されましたが、アラビア語の単語は解析されません。

アラビア語の単語も適切に変換するソリューションを誰かが推奨できますか?

0 投票する
0 に答える
1953 参照

iphone - iOS sdk for iPhone を使用して画像の pdf を解析する

PDFブックの読書を含むアプリを開発しています。CGPDF APIを介してページごとにpdfファイルを表示する方法を見つけました。私が知る必要があるのは、どうにかして pdf を解析し、ページに特定の画像が含まれているかどうか、その画像またはページでタップ/タッチ操作を有効にできるかどうかを確認できるかどうかです。正確にやりたいことは、ページに「メモ」という画像が含まれている場合、それをタップすると、関連するメモが表示された別のビューが開きます。それをどのように達成できるか考えていますか?または代替ソリューションはありますか?質問がかなり素朴で申し訳ありません。ありがとう

0 投票する
1 に答える
2390 参照

c# - PDF コンテンツ ストリームの解析

イラストレーターで構築されたpdfを解析するのに助けが必要です.4つのレイヤーがあり、各レイヤーには1つのグラフィックパスオブジェクトがあります。このpdfと同じ高さで、同じ位置に描画したい。これは私が書き始めたコードです:

上記のコードは、すべてのレイヤーデータを取得し、それらを4つのオブジェクトに分離するために使用されます

この行は 4 層のグラフィック バイナリ データを提供します。これは 1 層を表す PDFMask クラスです。

データ ソースは次のようになります。

このデータを別のPDFドキュメントで使用できるグラフィックオブジェクトに解析できるパーサーを探しています(pdfsharpパーサーを好むでしょう)

0 投票する
1 に答える
4619 参照

java - バイナリファイルの解析中にエラーが発生しました...(主にPDF)

バイナリファイルにByteArrayInputStreamを使用してApacheTikaを使用してPDFファイルを解析しようとしています...一部のPDFファイルでエラーが発生し始め、一部のPDFファイルは非常にうまく解析されています。以前はTikaを使用して同じPDFファイルを解析できましたが、 ByteArrayInputStreamを使用しようとすると、エラーが発生し始めました。ByteArrayに問題があると思います。これがエラーです。

そしてこれは私のコードです...




私が何をしているのか、どんな提案も... !!

更新: -pdfbox 1.6.0バージョンにアップグレードした後、一部のpdfでこのエラーが発生し始めました...

そしていくつかのPDFではこのエラー...