いくつかの段落と順序付き/順序なしリストを MS Word ファイルから HTML に変換する方法を探しています。
さて、問題は、Wordファイルを「htm/html」タイプのファイル(Word 2010を使用しています)として保存すると、あらゆる種類の不要なCSSディレクティブが大量に表示されることです。一部はMSが発明したもので、一部は有効ですHTMLコードに入れたくないCSS。さらに、さらに問題なのは、順序付き/順序なしリストが LI アイテムを使用して OL および UL にエンコードされておらず、Microsofty のクレイジーなエンコードにエンコードされていないことです。
たとえば、段落 (Word では「標準」としてスタイル設定) は次のように変換されます。
<p class=MsoNormal>
<span style='font-size:10.0pt;line-height:115%;mso-bidi-font-style:italic'>
bla bla </span></p>
そして、私はそれが明白であることを望んでいます:
<p><span>bla bla</span></p>
さらに恐ろしいことに、1 つのリスト項目を持つ単純な順序付けされていないリスト (「箇条書きリスト」) は、次のように変換されます。
<p class=MsoListParagraph style='text-indent:-18.0pt;mso-list:l0 level1 lfo1'>
<![if !supportLists]>
<span style='font-family:Symbol;mso-fareast-font-family:Symbol;mso-bidi-font-family:Symbol'>
<span style='mso-list:Ignore'>·
<span style='font:7.0pt "Times New Roman"'>
</span></span></span><![endif]>
<span dir=LTR</span>Bla bla</p>
私が取得したい間:
<ul><li>Bla bla</li></ul>
何か案は?
本当にありがとう!
ps Zend Studio を使用しています (Eclipse/zend 固有のコンバーターが組み込まれている可能性があります)
。 . これらのオプションをいじっても、上記の問題は解決しませんでした。