python - Python：画像付きのPDFを解析

Question

テキストを含み、画像を含む場合と含まない場合があるいくつかのpdfファイルを解析したいと考えています。さらに処理するためにテキスト部分を文字列として抽出し、画像を jpeg/png またはその他の画像形式として保存したいと考えています。作業するのに最適なモジュールは何ですか?

score 2 · Accepted Answer

pdfminer がテキストを取得します。pdfrw (免責事項: 私は pdfrw の作成者です) には、画像を見つけて別のページにダンプする例と、PDF を別のページに分割する例があるため、すべての画像を別の PDF に簡単に抽出できます。ヘッドレスモード (サブプロセスモジュールなどから) でinkscape を実行すると、PDF を読み込んで別の形式で出力できます。

python - Python：画像付きのPDFを解析

1 に答える 1

Related

Reference