5

いくつかの段落と順序付き/順序なしリストを MS Word ファイルから HTML に変換する方法を探しています。

さて、問題は、Wordファイルを「htm/html」タイプのファイル(Word 2010を使用しています)として保存すると、あらゆる種類の不要なCSSディレクティブが大量に表示されることです。一部はMSが発明したもので、一部は有効ですHTMLコードに入れたくないCSS。さらに、さらに問題なのは、順序付き/順序なしリストが LI アイテムを使用して OL および UL にエンコードされておらず、Microsofty のクレイジーなエンコードにエンコードされていないことです。

たとえば、段落 (Word では「標準」としてスタイル設定) は次のように変換されます。

<p class=MsoNormal>
 <span style='font-size:10.0pt;line-height:115%;mso-bidi-font-style:italic'>
  bla bla </span></p>

そして、私はそれが明白であることを望んでいます:

<p><span>bla bla</span></p>  

さらに恐ろしいことに、1 つのリスト項目を持つ単純な順序付けされていないリスト (「箇条書きリスト」) は、次のように変換されます。

<p class=MsoListParagraph style='text-indent:-18.0pt;mso-list:l0 level1 lfo1'>
 <![if !supportLists]>
  <span style='font-family:Symbol;mso-fareast-font-family:Symbol;mso-bidi-font-family:Symbol'>
   <span style='mso-list:Ignore'>·
    <span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;

    </span></span></span><![endif]>
 <span dir=LTR</span>Bla bla</p>

私が取得したい間:

<ul><li>Bla bla</li></ul>

何か案は?

本当にありがとう!

ps Zend Studio を使用しています (Eclipse/zend 固有のコンバーターが組み込まれている可能性があります)
。 . これらのオプションをいじっても、上記の問題は解決しませんでした。

4

1 に答える 1