1

仕事で、同じ文書の異なるバージョンを表す 2 つの Word 文書があります。違いを比較して抽出したいのですが、単語文書をテキストファイルに変換してから比較したいと思います。これは可能ですか?ありがとう。

4

1 に答える 1

1

システムに Word がインストールされている場合は、activeX Word オートメーション オブジェクトを使用してテキストを抽出できます。この単純でテストされていないコードを使用して開始します

word = WIN32OLE.new('Word.Application');
worddoc = word.Documents.Open(filename);
text = worddoc.content.text;

Word を持っていない場合、またはユーザーに Word のインストールを要求したくない場合は、もう少し努力してテキストを抽出することもできます。Word が使用する最近の .docx 形式は、zip アーカイブ内の Open XML Office ファイルにすぎません。そのため、.docx ファイルを解凍し、word フォルダーでドキュメントの内容を表す xml ファイルを検索するだけです。XML(DOMまたはSAXまたはPOROまたは..)を解析するだけでテキストを抽出します。

于 2012-06-03T17:55:04.403 に答える