これは別の方法で尋ねられた可能性があります。ただし、その場でやっているわけではありません。ときどき、全角ダッシュ、太字、イタリック体のテキスト、およびブロック引用符を含む Word ファイルのコンテンツを取得します。これをきれいな html コードに変換するための優れたツールはありますか。
そうでなければ、人々が取る他のアプローチ。
ずいぶん前に、よく構造化された数メガバイトの Word 文書を取り、それを一連の HTML ページ (約 20,000 ページ!) に変換するという任務がありました。これは、単語 doc を RTF (Word の Save As HTML 出力あまりにも「汚い」)、Perl スクリプトを介して RTF を HTML に変換します。変換は 2 つのパス プロセスでした... 最初に一般的なフォーマット エラーをクリーンアップし、次にクリーンな RTF を HTML に変換します。
文書の編集者は Word 文書を維持し続けたため、最初のパスで一般的な書式設定エラーをコード化するのに費用がかかりました。エラーは修正後も再発することが多いためです。
ちなみに、このプロセスは、優れたコーダーがわずか 40 時間 (またはそれくらい) で約 20,000 の Web ページを生成し、それらを無期限に最新の状態に保つ方法を非常に懐疑的な経営陣に示しました。変換に何百時間も費やし、その後、結果の HTML を手作業で維持することを余儀なくされていたでしょう。
誰も言及していないことに驚いていますが、HTML Tidyは通常、これをうまく処理します。最近は使っていませんが、特に Word から公開された HTML コンテンツをクリーンアップするのに適していることは理解しています。
TinyMCE を使用して、単一の Word ドキュメントを削除して変換します。Web ホストにアップロードできる場合は無料です (所有している場合)。スパムメージを避けるためにインストールを保護していますが、 http://tinymce.moxiecode.com/tryit/full.phpでデモを使用できます。
実際、少なくとも私の使用方法に関しては、私が試したほとんどのスタンドアロンの変換プログラムよりもうまく機能します。
このDoc To HTML Converter を試すことができます。無料ではありませんが、問題は解決します。
私は何年も前に、Microsoft Office Word 2003 (.NET 2.0) 用の CleanXHTML 1.2というツールを作成しました。これは、Word内で機能するように設計されており、文書内で強調表示 (または選択) されているものに基づいて XHTML をエクスポートできます。私は何年も Word 2007 バージョンを使用しています。
これを行うコマンドライン ユーティリティを作成しました。詳細については、このDoc to HTML converter を参照してください。
私にとって最も簡単で迅速な方法は、Word からすべてのテキストをコピーし、Dreamweaverの wysiwyg エディター(MX から CS3 までの任意のバージョン) に貼り付け特殊コマンドを使用して貼り付け、ドキュメントの構造のみを保持することを選択することです。Word 文書がそれほど複雑でない場合はうまく機能し、非常に複雑な場合は、コード ビューで追加の編集を行うだけで済みます。結果のhtmlは本当にきれいです。
この方法の唯一の問題は、無料ではない Dreamweaver が必要なことです。とにかく、DW の試用版でメソッドをテストできます。
ネクロマンシング:
Word 2013 で Word ドキュメントを開き
ます。odt (OpenOffice ドキュメント) として保存します。
OpenOffice で開く
そして、使用する"Save As" ==> HTML-Document
か使用する
"File" ==> Export ==> XHTML
エクスポートには JRE のインストールが必要ですが、名前を付けて保存には必要ありません。
Word の場合、COM-interop を使用するか、Aspose Words を使用できます。
aspose.words を直接使用して、xpath クエリで「著作権」テキストを削除することもできます ;)
Wordは、独自のコーディングで非常に「ダーティ」です。ユーザーが組み込みのスタイル(見出し1、見出し2など)を使用したか、フォントサイズを変更したかによって、ネストされた太字タグ、空の太字タグ、およびあらゆる種類の不快感を含めることができます。Wordドキュメントを取得してHTMLに「変換」しようとするものはすべて、同じマークアップの問題も継承します。
最善の方法は、Wordでマクロを記録して、Mダッシュ、タブ、省略記号などの明白なものに対して複数の検索と置換のアクションを実行することです。
次に、段落の区切り^ p ^ pをプレースホルダー(〜など)に置き換え、すべての単一の区切り(^ p)をスペースに置き換え、〜をに置き換え</p>^p</p>
てHTML段落を生成します。
次に、ドキュメント全体をコピーし、メモ帳に貼り付けてASCII以外のマークアップを削除し、それをコピーしてHTMLエディターに貼り付け、太字の斜体や段落タグの不一致など、残っている10%を手動でマークアップします。
手作業でコーディングするほど優れたものはないので、この手法を使用すると、ほとんどのうなり声の作業が行われ、最初からきれいなテキストが得られます。
RTF に変換し、XSLT を使用してリッチ テキストを HTML に変換します。.docx などの Word 形式ではなく、すべてを RTF として取得することをお勧めします。
このツールを試してみてください: OpenXML Document Viewer。
OpenXML (DOCX) ドキュメントを HTML に変換するためのコマンド ライン ツールを提供します。
Word 2003 または 2007 をインストールできる場合は、新しい OOXML 形式を使用して XML ファイルを生成できます。形式はかなり複雑ですが、少なくとも標準ツールで解析できます。これにより、必要な情報をファイルから抽出できるようになります。
ファイルOfficeXMLMarkupExplained_en.docxには、OOXML の仕組みの紹介と多くの詳細が含まれています。
http://www.manglebracket.com/も試してみてください。これは、Word DOC をアップロードし、さまざまな (実際には多すぎる) オプションを使用して HTML に変換する Web アプリです。たとえば、コピーライターが Word でプレス リリースを送信し、それをサイトに掲載したい場合など、アドホックな変換に最適です。
WordDownは、Microsoft Word 文書を HTML5 に変換するためのブックマークレットです。ドキュメントの構文だけでなく、セマンティクスと視覚的な外観も変更します。私のテスト ケースでは、視覚的な結果は元のドキュメントと比べて非常に満足のいくものでした。変換されたドキュメントを印刷する場合は、左側の小さな赤いバナーが印刷スタイルシートに含まれていないことを知っておく必要があります。