xml - OpenXML - docx からのテキストとフォーマットの抽出 (MS Office 2010)

翻译自：https://stackoverflow.com/questions/11635670 2012-07-24T16:54:47.870

463 次

オープン XML をより単純なものに変換できるようにすることが目的である場合、2010 docx からテキストおよびインラインタグ (ボールド、イタリックなど) を抽出するための最適なツールは何ですか?

心に浮かぶアイデアは、docx を別の形式に変換することです。もしそうなら、どのフォーマットとどのプログラム（できればオープンソース）で提案しますか?

他のアイデア (つまり、異なるアプローチ) はありますか? 多くのツールが MSOffice 2007 用にまだ作成されているようです。つまり、Xpath、XQuery、および XSLT が進むべき道ですか? もしそうなら、その理由は?

しばらくお待ちください。私はこれについての初心者であり、できれば簡潔な知識源についての指摘も喜んで歓迎します.

キシソル

xml - OpenXML - docx からのテキストとフォーマットの抽出 (MS Office *2010*)