問題タブ [pdf-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
611 参照

vb.net - 最初に添付ファイルを PDF ファイルに保存せずに、PDF 電子メールの添付ファイルからテキストを抽出する

PDF Extractor (ここから) を使用して、電子メールの PDF 添付ファイルからテキストを取得しています。

テキストを抽出できる唯一の方法は、PDFをファイルに保存してからコードを使用することだと私には思えます。

PDF ファイルから文字列のリストを抽出します。

ただし、添付ファイルからテキストを直接抽出することはできません。「エクストラクタ」は、ディスク上のファイル以外のソースを処理できないようです。

おそらくメモリ内ファイルストリームを作成することによって、「エクストラクタ」をだましてメモリからファイルを開く方法はありますか?

私はこのようなを使ってみましたMemoryStream

ただし、エクストラクタはソースがディスク ファイルであると想定しているため、一時ファイルが見つからないというエラーが返されます。

正直なところ、私はメモリ ストリームを理解しようとかなりの時間を費やしてきましたが、それらは要求に合わないようです。

アップデート

添付ファイルを MemoryStream に保存するために使用しているコードもここにあります。

明らかな何かを見逃した場合は、お詫び申し上げます。

0 投票する
3 に答える
1984 参照

python - PythonでPDFから画像を抽出中にエラーが発生しました

PDFからすべての形式の画像を抽出しようとしています。グーグルで調べたところ、StackOverflowでこのページが見つかりました。このコードを試しましたが、次のエラーが発生します。

私はpython 3.xを使用しています。これが私が使用しているコードです。コメントを調べてみましたが、わかりませんでした。これを解決するのを手伝ってください。

サンプルPDFはこちら。

私はいくつかのコメントを読んでリンクをたどっていましたが、この問題はこのページで解決されていることがわかりました。誰かがそれを実装するのを手伝ってもらえますか?

0 投票する
0 に答える
233 参照

r - .pdf テーブルの抽出

Rで興味のある .pdf テーブルを取得するために機能するコードのチャンクを書きましたが、もっと良い方法があるはずです。したがって、pdfからデータをインポートする際に問題はありません。興味のあるテーブルを抽出するために、以下よりも良い方法を探しています。

...そして、それらをすべてマージします。長すぎてエレガントではありません。