ソフトウェアのリリースノートには、すべてのリリースで抽出したいいくつかの重要なデータがあります。Microsoft Wordから特定の情報を抽出する方法はありますか?
私が考えているアプリケーションはC#で記述されますが、他の解決策であれば問題ありません。
ソフトウェアのリリースノートには、すべてのリリースで抽出したいいくつかの重要なデータがあります。Microsoft Wordから特定の情報を抽出する方法はありますか?
私が考えているアプリケーションはC#で記述されますが、他の解決策であれば問題ありません。
おそらく最も洗練された解決策ではありませんが、これが最も軽い方法のようです。Cscriptを使用してください。
サンプルワードdoc(2003)で試してみたところ、完全に機能します。
詳細情報:http ://www.gregthatcher.com/Papers/VBScript/WordExtractScript.aspx
すべての MS Office 製品 (Word、Office など) は、内部 (VBA を使用) と外部 ( ActiveX としても知られるOLE オートメーションを介して) の両方で完全にスクリプト可能です。実際、VBA は OLE を介して公開されたインターフェイスを使用します。
私の提案は、これをサポートする言語のライブラリを探すことです。 Perl モジュール へのリンクは次のとおりWin32::OLE
です。ご覧のとおり、非常に使いやすく、非常に強力です。インターフェイスは、他の言語でも同様である必要があります。
私は数年前にこれを経験しました。あなたはできる:
Word を使用して、ファイルを他の形式 (ASCII、RTF、XML など) に変換します。
サードパーティのアプリを使用して、ASCII などの別の形式に変換します。
OLE を介して Word API にアクセスし、情報を直接抽出します。
Word ファイルを読み取るための一般的なライブラリを見つけることができませんでした。当時は、Word ファイルを読み取るアプリケーションはすべてサブセットに対してしか機能しませんでした。言葉が頻繁に変わるため、彼らはついていくのに苦労しました。
古い Word ファイル形式の詳細をリストしたドキュメントがいくつかありましたが、基になるファイル構造はとてつもなく複雑です。多くのリソースがなければ、コードをファイル形式と同期させることは困難です。
当初、私は Perl を使用して Word を操作し、新しいドキュメントを作成しましたが、ソリューションは脆弱すぎました。その後、アプリケーション全体を代わりに PDF で動作するように切り替え、Word をあきらめました。
ポール。
I did a lot of excel programming with the VSTO (Visual Studio Tools for Office) tools, I think you will be able to use the VSTO API to read a word doc. You should be able to use C#
Wordの内部(VBA、VSTO)または外部から作業できます。
その外側から見ると、自動化は1つのアプローチです。
もう1つは、Wordを完全に使用しないようにすることです。ドキュメントが.docxの場合、OpenXMLファイルを操作できるものなら何でも使用できます。MicrosoftにはOpenXMLSDKがあり、Javaの世界ではdocx4jまたはPOIを使用できます。
Word ファイルからテキストを抽出するIFilterを作成できます。Word をインストールする必要はありません。