特定の MS Word 文書を、その文書に含まれる文書オブジェクト (段落、表など) の連続したリストに変換する VBA マクロを作成しようとしています。これらのオブジェクトごとに、含まれているテキストとその明示的な書式設定情報を抽出して、DB に保存したいと考えています。
始める方法についての指針はありますか?このドキュメント解析タスクに対するエレガントなソリューションはありますか?
完全な要件を知らなくても、これはいくつかの提案にすぎません。
やりたいことはできるかもしれませんが、Word 文書をバラバラにしてつなぎ合わせるのは大変な作業です。この方法を使用したくない場合は、段落や画像などを取り出して、これらのセクションを個別のドキュメントとしてデータベースに保存するのが最善の方法です。その後、それらを使用して元に戻すことができます
For i = 1 To ActiveDocument.Paragraphs.Count
MsgBox ActiveDocument.Paragraphs.Item(i)
Next i
ActiveDocument.Content.InsertAfter AnotherDocument
これは信じられないほど基本的なものであり、正しく機能させるには多くの作業が必要です。
ドキュメントを HTML に変換した方が (HTML として保存するだけで)、オープン ソース ライブラリを使用してユーザーがドキュメントの一部を編集できるようになるのではないかと思います。たとえば、jquery 用のjeditableプラグインを追加すると、html ワード文書のほぼすべての段落が編集可能になります。変更を保存するための単純なバックエンド php スクリプトと、機能するものがあります。次に、翻訳目的で何が変更されたかを確認することもできます。
ドキュメントは、顧客に送信する前にワード ドキュメントまたは PDF として保存できます。
ただのアイデア。