新しいページ、または python-docx を使用してページ番号を示す識別子を識別するにはどうすればよいですか? これまでドキュメントを調べても役に立たず、WD_BREAK.PAGE 属性も探してみましたが、この機能はまだサポートされていません。すべての助けに感謝します。
1 に答える
簡単に言えば、.docx ファイルからソフト改ページを確実に判断することはできないということです。ハード改ページを識別でき、Word が最後にドキュメントを "流し込んだ" ときに改ページした場所を検出できる場合があります。
Word 文書は「流し込み」文書です。つまり、Word のレイアウト エンジンは、スペースがなくなるまで文書のテキストをページに「流し込み」、その後、残りのテキストを流し込む新しいページを作成します。これらの "ソフト" 改ページは .docx ファイルでは指定されていません。これらは、表示または印刷のいずれかのレンダリング時に Word によって決定されます。余白などを変更するたびに、ページが別の場所で壊れる可能性があるため、これは理にかなっています。
これは、次のテキストが新しいページのどこに流れるべきかを識別するマークアップが .docx ファイルに含まれていないことを意味します。
ハード改ページは、現在のページがいっぱいかどうかに関係なく、後続のコンテンツが新しいページに流れるようにするために、ドキュメントの作成者によって明示的に挿入される改ページです。これらは、私が信じている実行内でブレーク要素を使用して実装されており、検出することができます。
視覚障害者向けの音声リーダーなどの支援技術の補助として、Word は<w:lastRenderedPageBreak>
要素を挿入することがあります。これらについて、またどのような状況で Word がこれらを挿入するのかはよくわかりませんが、調べる価値のある方法かもしれません。