0

テキストを含み、画像を含む場合と含まない場合があるいくつかのpdfファイルを解析したいと考えています。さらに処理するためにテキスト部分を文字列として抽出し、画像を jpeg/png またはその他の画像形式として保存したいと考えています。作業するのに最適なモジュールは何ですか?

4

1 に答える 1

2

pdfminer がテキストを取得します。pdfrw (免責事項: 私は pdfrw の作成者です) には、画像を見つけて別のページにダンプする例と、PDF を別のページに分割する例があるため、すべての画像を別の PDF に簡単に抽出できます。ヘッドレス モード (サブプロセス モジュールなどから) でinkscape を実行すると、PDF を読み込んで別の形式で出力できます。

于 2015-09-20T20:38:43.267 に答える