Word 文書を htmt 文書 (具体的にはcontenteditable
div) にカット アンド ペーストすると、大量のメタ データが含まれていることに気付きました。私が興味を持っているのは、このテキストを単語ドキュメントの「ページ」と同じ数の div にページ分割する JavaScript 関数です。
慣れていない場合は、ソース コードから見た Word ドキュメントの簡略版を次に示します。
<div contenteditable="true" >
<!--[if gte mso 9]><xml>
<o:OfficeDocumentSettings>
<o:AllowPNG/>
</o:OfficeDocumentSettings>
</xml><![endif]-->
<!--lots more junk until get to actual content which is here:-->
<p class="Default">
<b><span style="font-size:14.0pt;font-family:Arial;color:windowtext">
I am the actual title of this work. <o:p></o:p></span>
</b>
</p>