問題タブ [pdf-extraction]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

113 問題

0 投票する

0 に答える

611 参照

vb.net - 最初に添付ファイルを PDF ファイルに保存せずに、PDF 電子メールの添付ファイルからテキストを抽出する

PDF Extractor (ここから) を使用して、電子メールの PDF 添付ファイルからテキストを取得しています。

テキストを抽出できる唯一の方法は、PDFをファイルに保存してからコードを使用することだと私には思えます。

PDF ファイルから文字列のリストを抽出します。

ただし、添付ファイルからテキストを直接抽出することはできません。「エクストラクタ」は、ディスク上のファイル以外のソースを処理できないようです。

おそらくメモリ内ファイルストリームを作成することによって、「エクストラクタ」をだましてメモリからファイルを開く方法はありますか?

私はこのようなを使ってみましたMemoryStream：

ただし、エクストラクタはソースがディスクファイルであると想定しているため、一時ファイルが見つからないというエラーが返されます。

正直なところ、私はメモリストリームを理解しようとかなりの時間を費やしてきましたが、それらは要求に合わないようです。

アップデート

添付ファイルを MemoryStream に保存するために使用しているコードもここにあります。

明らかな何かを見逃した場合は、お詫び申し上げます。

2016-08-21T15:05:48.147

0 投票する

3 に答える

1984 参照

python - PythonでPDFから画像を抽出中にエラーが発生しました

PDFからすべての形式の画像を抽出しようとしています。グーグルで調べたところ、StackOverflowでこのページが見つかりました。このコードを試しましたが、次のエラーが発生します。

私はpython 3.xを使用しています。これが私が使用しているコードです。コメントを調べてみましたが、わかりませんでした。これを解決するのを手伝ってください。

サンプルPDFはこちら。

私はいくつかのコメントを読んでリンクをたどっていましたが、この問題はこのページで解決されていることがわかりました。誰かがそれを実装するのを手伝ってもらえますか?

python python-imaging-library pypdf2 pdf-extraction

2017-12-09T17:01:31.867

0 投票する

0 に答える

233 参照

r - .pdf テーブルの抽出

Rで興味のある .pdf テーブルを取得するために機能するコードのチャンクを書きましたが、もっと良い方法があるはずです。したがって、pdfからデータをインポートする際に問題はありません。興味のあるテーブルを抽出するために、以下よりも良い方法を探しています。

...そして、それらをすべてマージします。長すぎてエレガントではありません。

r pdf-extraction

2018-05-15T12:43:07.223

1 2 3 4 5 6 7 8 9 10

問題タブ [pdf-extraction]

vb.net - 最初に添付ファイルを PDF ファイルに保存せずに、PDF 電子メールの添付ファイルからテキストを抽出する

python - PythonでPDFから画像を抽出中にエラーが発生しました

r - .pdf テーブルの抽出

Reference