html - Word と HTML の間で文書を管理するにはどうすればよいですか?

Question

この質問がこのウェブサイトにふさわしくない場合は、事前にお詫び申し上げます。

HTML として Web サイトに表示する必要がある Microsoft Word でいくつかの文書を作成しました。これを行うには、これらのドキュメントのコンテンツを HTML タグを使用してデータベースに入力する必要があります。たとえば、これはデータベースに入れる必要があるものです。

<h1>Document Title</h1>
<p>This is the introduction paragraph for the document</p>
<ol>
<li>This is a summary point</li>
</ol>

私の問題は、Microsoft Word を HTML ページとして保存すると、余分なマークアップ (主にインライン CSS によるプレゼンテーション) が追加されるため、上記の例のように基本的な HTML 構造にそれを取り除くのが難しいことです。

では、オフラインコンテンツとオンラインコンテンツの同期を保つにはどうすればよいでしょうか。同じ文書の 2 つのバージョン (1 つは Word で、もう 1 つは HTML) を作成することは避けたかったのです。同期を保つのは難しいからです。

MS Word を設定して、プレゼンテーション形式を使用せずに HTML として保存できますか? または、使用する必要がある別のソフトウェアがありますか?

score 1 · Accepted Answer

返信ありがとうございます。さまざまなオンラインコンバーターを試しましたが、リストが正しく変換されませんでした。番号付きリストが<p>要素に挿入されていましたが、これは間違っていました。結局、私はそれを非常に簡単に行う方法を見つけました....

Word ドキュメント全体をコピーして、Adobe Dreamweaver に貼り付けます。次にコードビューに移動すると、Dreamweaver によって適切でクリーンな HTML マークアップが美しく適用されていることがわかります。

score 1 · Accepted Answer

ドキュメントの数が限られており、手動で変換できる場合は、word2cleanhtml.com、www.textfixer.com、document.online-convert.comなどの無料のオンラインサービスが役立ちます。

ただし、プロセスを自動化したい場合は、docx形式が実際にはzipドキュメントのすべての要素 (画像、表、テキストなど) を含むファイルであることを知っておく必要があります。これらのアイテムはサブフォルダーに分類され、そのほとんどは XML 形式です。したがって、ここで説明したような手法を使用して、ファイルから目的のコンテンツを抽出docxできます。

ファイルのコンテンツを操作または抽出できる既知の商用およびオープンソースライブラリもいくつかありdocxます。Apache POIやOpenOfficeなどのAPIはオープンソースプロジェクトの例であり、Aspose Word for Javaはこの分野で利用できる最高の API の 1 つである商用製品です。

score 0 · Accepted Answer

ColdFusion を使用している場合は、DocExtactor http://docxextractor.riaforge.org/を使用できます。

すべてのソースにアクセスできるため、必要な HTML 形式に変更することができます

免責事項：私が書きました

html - Word と HTML の間で文書を管理するにはどうすればよいですか?

4 に答える 4

Related

Reference