1

ソフトウェアのリリースノートには、すべてのリリースで抽出したいいくつかの重要なデータがあります。Microsoft Wordから特定の情報を抽出する方法はありますか?

私が考えているアプリケーションはC#で記述されますが、他の解決策であれば問題ありません。

4

6 に答える 6

1

おそらく最も洗練された解決策ではありませんが、これが最も軽い方法のようです。Cscriptを使用してください。

サンプルワードdoc(2003)で試してみたところ、完全に機能します。

詳細情報:http ://www.gregthatcher.com/Papers/VBScript/WordExtractScript.aspx

于 2011-05-06T18:51:05.980 に答える
1

すべての MS Office 製品 (Word、Office など) は、内部 (VBA を使用) と外部 ( ActiveX としても知られるOLE オートメーションを介して) の両方で完全にスクリプト可能です。実際、VBA は OLE を介して公開されたインターフェイスを使用します。

私の提案は、これをサポートする言語のライブラリを探すことです。 Perl モジュール へのリンクは次のとおりWin32::OLEです。ご覧のとおり、非常に使いやすく、非常に強力です。インターフェイスは、他の言語でも同様である必要があります。

于 2009-03-31T15:41:23.773 に答える
1

私は数年前にこれを経験しました。あなたはできる:

  1. Word を使用して、ファイルを他の形式 (ASCII、RTF、XML など) に変換します。

  2. サードパーティのアプリを使用して、ASCII などの別の形式に変換します。

  3. OLE を介して Word API にアクセスし、情報を直接抽出します。

Word ファイルを読み取るための一般的なライブラリを見つけることができませんでした。当時は、Word ファイルを読み取るアプリケーションはすべてサブセットに対してしか機能しませんでした。言葉が頻繁に変わるため、彼らはついていくのに苦労しました。

古い W​​ord ファイル形式の詳細をリストしたドキュメントがいくつかありましたが、基になるファイル構造はとてつもなく複雑です。多くのリソースがなければ、コードをファイル形式と同期させることは困難です。

当初、私は Perl を使用して Word を操作し、新しいドキュメントを作成しましたが、ソリューションは脆弱すぎました。その後、アプリケーション全体を代わりに PDF で動作するように切り替え、Word をあきらめました。

ポール。

于 2009-03-31T16:08:43.867 に答える
0

I did a lot of excel programming with the VSTO (Visual Studio Tools for Office) tools, I think you will be able to use the VSTO API to read a word doc. You should be able to use C#

于 2009-03-31T15:38:17.743 に答える
0

Wordの内部(VBA、VSTO)または外部から作業できます。

その外側から見ると、自動化は1つのアプローチです。

もう1つは、Wordを完全に使用しないようにすることです。ドキュメントが.docxの場合、OpenXMLファイルを操作できるものなら何でも使用できます。MicrosoftにはOpenXMLSDKがあり、Javaの世界ではdocx4jまたはPOIを使用できます。

于 2009-04-01T22:57:50.630 に答える
0

Word ファイルからテキストを抽出するIFilterを作成できます。Word をインストールする必要はありません。

于 2009-03-31T15:39:55.027 に答える