python - Python で PDF ファイルの情報を非表示にする

Question

Python では、ReportLab によって生成されたファイルがあります。ここで、その PDF からいくつかのページを抽出し、機密情報を非表示にする必要があります。

黒く塗りつぶされたスポットを含む PDF ファイルを作成し、pyPdf を使用して mergePage を作成することはできますが、人々は黒く塗りつぶされたスポットの下の情報を選択してコピーアンドペーストすることができます。

それらのスポットを完全に非公開にする方法はありますか?

たとえば、ページのアドレスを非表示にする必要があるのですが、どうすればよいですか?

ありがとう、

score 1 · Accepted Answer

基本的に、PDF のページコンテンツストリーム内の対応するテキスト描画コマンドを削除する必要があります。ページを 2 回生成する方がはるかに簡単です。1 回は機密情報あり、もう 1 回は機密情報なしです。

機密情報に簡単にアクセスできるように (たとえば、別個の XObject として)、削除のために PDF を特別に作成することは可能かもしれません (私は ReportLab について十分に知りません)。それでも、PDF に対してかなり低レベルの操作を行う必要があります。これはお勧めしません。

score 0 · Accepted Answer

（申し訳ありませんが、質問を投稿したときにログオンできませんでした...）

残念ながら、ドキュメントを自由に再生成することはできず (状況依存)、これらの PDF ファイル (約 35) は 3000 ページ以上あります。

pdf2ps と pdf2ps back を使おうと思っていたのですが、結構クオリティが高いです。

pdf2ps -dLanguageLevel=3 入力.pdf - | ps2pdf14 - 出力.pdf

代わりに「pdftops」を使用すると、テキストは引き続き選択可能です。「pdf2ps」のように、より良い品質で選択不可にする方法があれば、それも行います。

2 に答える 2