問題タブ [pdf-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
vb.net - 最初に添付ファイルを PDF ファイルに保存せずに、PDF 電子メールの添付ファイルからテキストを抽出する
PDF Extractor (ここから) を使用して、電子メールの PDF 添付ファイルからテキストを取得しています。
テキストを抽出できる唯一の方法は、PDFをファイルに保存してからコードを使用することだと私には思えます。
PDF ファイルから文字列のリストを抽出します。
ただし、添付ファイルからテキストを直接抽出することはできません。「エクストラクタ」は、ディスク上のファイル以外のソースを処理できないようです。
おそらくメモリ内ファイルストリームを作成することによって、「エクストラクタ」をだましてメモリからファイルを開く方法はありますか?
私はこのようなを使ってみましたMemoryStream
:
ただし、エクストラクタはソースがディスク ファイルであると想定しているため、一時ファイルが見つからないというエラーが返されます。
正直なところ、私はメモリ ストリームを理解しようとかなりの時間を費やしてきましたが、それらは要求に合わないようです。
アップデート
添付ファイルを MemoryStream に保存するために使用しているコードもここにあります。
明らかな何かを見逃した場合は、お詫び申し上げます。
python - PythonでPDFから画像を抽出中にエラーが発生しました
PDFからすべての形式の画像を抽出しようとしています。グーグルで調べたところ、StackOverflowでこのページが見つかりました。このコードを試しましたが、次のエラーが発生します。
私はpython 3.xを使用しています。これが私が使用しているコードです。コメントを調べてみましたが、わかりませんでした。これを解決するのを手伝ってください。
サンプルPDFはこちら。
私はいくつかのコメントを読んでリンクをたどっていましたが、この問題はこのページで解決されていることがわかりました。誰かがそれを実装するのを手伝ってもらえますか?
r - .pdf テーブルの抽出
Rで興味のある .pdf テーブルを取得するために機能するコードのチャンクを書きましたが、もっと良い方法があるはずです。したがって、pdfからデータをインポートする際に問題はありません。興味のあるテーブルを抽出するために、以下よりも良い方法を探しています。
...そして、それらをすべてマージします。長すぎてエレガントではありません。