c# - C# (.NET) で MS Word 文書のテキストをロードするには?

Question

これを行わずに MS Word ドキュメント (.doc および .docx) をメモリ (変数) にロードするにはどうすればよいですか?:

wordApp.Documents.Open

私は MS Word を開きたくありません。そのテキストを中に入れたいだけです。

DOCX の回答をいただきましたが、DOC はどうでしょうか。無料で高性能なソリューションが必要です。Word の 12.000 インスタンスを開いてすべてを処理するのではありません。:( Aspose は商用製品であり、900 ドルは私の仕事には高すぎます。

score 4 · Accepted Answer

Office Compatibility Pack の一部である wordconv.exe を使用して、doc から docx に変換できます。

http://www.microsoft.com/downloads/details.aspx?familyid=941b3470-3ae9-4aee-8f43-c6bb74cd1466&displaylang=en

次のようにコマンドを呼び出すだけです: "C:\Program Files\Microsoft Office\Office12\wordconv.exe" -oice -nme InputFile OutputFile

実行するためにワードをインストールする必要があるかどうかはわかりませんが、動作します。Windows シェルコマンドとしてローカルで使用し、いつでも古い Office ファイルを 2007 形式に変換しています。

score 2 · Accepted Answer

docx形式のWord文書については、CodeProjectでこの興味深い記事を見つけました。

DocxToTextを使用してDOCXファイルからテキストを抽出する

この記事では、著者は単語自体を取り除くことについて説明しています。

Office APIを使用して（バックグラウンドで）Wordのインスタンスを生成する以外のドキュメント（非docx）Wordドキュメントの場合、市場に出回っているさまざまなDoc2Docxコンバーターの1つにシェルアウトして、上記のプロセスを適用してみてください。両方とも。

score 2 · Accepted Answer

docxを扱っている場合は、Wordとの相互運用を行わずにこれを行うことができます。docxファイル実際にはZIPにはXMLファイルが含まれています。XMLを読むことができます。以下のリンクを参照してください。

http://conceptdev.blogspot.com/2007/03/open-docx-using-c-to-extract-text-for.html

Office（2007）OpenXMLファイル形式

score 1 · Accepted Answer

私は最近、このトピックについていくつかの調査を行いました。単語自体を開かずにプログラムで単語ファイルを操作できるようにするには、非常に高価なツールが必要であることがわかりました。

Wordの操作に関するコードプロジェクトに関する記事があります。便利だと思うかもしれません。作成者は、Wordの呼び出しを処理するためのC＃COMラッパーを作成します。ただし、実際にはアプリケーションという単語が開いているように見えます。

neowinフォーラムでのこの投稿も有望に見えます。これには、テキスト抽出を目的としたかなりの数のPInvoked呼び出しが含まれています。

たぶん、ウィンドウを非表示にしておく方法を見つけることができれば、それは許容できるでしょう。

score 0 · Accepted Answer

Aspose には、Word ドキュメントの読み取り、変更、書き込みを行うコンポーネントがあります。製品リンクは次のとおりです: Aspose.Words for .NET and Java

Aspose.Words を使用すると、Microsoft Word® を使用せずに、.NET および Java アプリケーションで Word® ドキュメントの読み取り、変更、書き込みを行うことができます。Aspose.Words は、ドキュメントの作成、コンテンツとフォーマットの操作、強力なメールマージ機能、DOC、OOXML、RTF、WordprocessingML、HTML、OpenDocument、PDF 形式の包括的なサポートなど、幅広い機能をサポートしています。Aspose.Words は、市場で最も手頃な価格で、最も高速で機能豊富な Word コンポーネントです。

score 0 · Accepted Answer

docxtemplaterを使用すると、単語の全文を簡単に取得できます (docx でのみ機能します)。

これがコードです（Node.JS）

DocxTemplater=require('docxtemplater'); doc=new DocxTemplater().loadFromFile("input.docx"); result=doc.getFullText();

これはわずか 3 行のコードであり、どの単語インスタンスにも依存しません (すべてプレーンな JS)。

score -1 · Accepted Answer

敵対するつもりはありませんが、なぜですか？

Word2X または AbiWord を使用して Linux サーバー上の Word ドキュメントからデータを抽出しましたが、ドキュメントの数と種類によっては、抽出で常にエラーが発生します。箇条書き、改ページ、ドキュメントセクション、その他の「特別な」機能が多ければ多いほど、事態は悪化します。

OpenOffice を自動化してドキュメントを処理するオプションがあることは理解していますが、可能であれば、Word を使用して Word ドキュメントを処理することをお勧めします。

c# - C# (.NET) で MS Word 文書のテキストをロードするには?

7 に答える 7

Related

Reference