MicrosoftWordから生成されたhtml形式の非常に大きなドキュメントがあります。それはすっごく散らかっていて、肥大化したものでいっぱいです(不明なタグ、不明な名前空間など、その他の肥大化したものなど)
それをプレーンなhtmlsytaxに変換する方法はありますか?
HTMLTidyを試してください。MS Wordで生成されたHTMLで非常にうまく機能すると聞いています(少なくともWord 2000までは間違いなく、おそらくもっと新しいバージョンでも)。
これは実際にはプログラミングの問題ではありませんが、(少なくとも最近のバージョンの)Wordは「Webページ、フィルター済み」に保存できます。これにより、Office固有のタグとプロパティが削除され、ドキュメントのレンダリングに必要なタグのみが残ります。ウェブブラウザ。したがって、Wordを使用している場合は、Wordを使用してHTMLドキュメントを開き、その形式で保存してみてください。
あなたはおそらくHTMLTidyを探しています。これには、ほとんどすべての言語のアダプターがあります。Microsoft Word HTML出力(および他の多くの機能)をクリーンアップするオプションがあります。
単語のHTMLをクリーンアップするためにHTMLオンラインツールをクリーンアップしてみてください