章/ブックマークごとに .pdf を分割するスクリプトを Python で作成しました。これが基本的に私のプログラムの核心です:
for each chapter:
system('pdftk A=file.pdf cat A{start}-{end} output file2.pdf')
ツールキットはうまく機能しますが、何度も呼び出すのは明らかに時間効率の良い作業ではありません。200MB の .pdf ファイルの解析には 15 秒から 20 秒かかり、30 の個別の章にまたがると長い時間がかかります。実際にデータを書き込むよりも、ファイルを開くのに多くの時間が費やされます。
ツールキット内で複数のコマンドを文字列化する固有の方法がないように思われるため、これを回避できるようにする (つまり、.pdf を開いたままにする) Python または CMD でプルできるメモリのトリックはありますか? 別のモジュールも検討します (ただし、 pyPdfには独自の多くの問題があります)。