問題タブ [hwpf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Apache HWPF を使用して DOC ファイルからテキストと画像を抽出する方法
Apache HWPFをダウンロードしました。これを使用して doc ファイルを読み取り、そのテキストをプレーン テキスト ファイルに書き込みたいと考えています。HWPFはよくわかりません。
私の非常に単純なプログラムは次のとおりです。
私は今3つの問題を抱えています:
一部のパッケージにエラーがあります (apache hdf が見つかりません)。どうすれば修正できますか?
HWDF のメソッドを使用して画像を見つけて抽出するにはどうすればよいですか?
プログラムの一部が不完全で間違っています。だから、それを完成させるのを手伝ってください。
このプログラムを 2 日で完了しなければなりません。
もう一度繰り返します。これを完了するのを手伝ってください。
みんな、助けてくれてありがとう!!!
これは私の基本的なコードです:
java - Java: POI/HWPF を使用した ms-word ドキュメントの解析
ms-word ドキュメント (MS-Office 2003; 非 xml) があります。このドキュメント内には、ブックマークに関連付けられた文字列があります。さらに、ワード文書にはワードマクロが含まれています。私の目標は、ドキュメントを Java で読み取り、ブックマークに関連付けられた文字列を置き換え、ドキュメントを Word 形式に戻すことです。
私の最初のアプローチは、Apache POI HWPF を使用することでした。
このソリューションの問題点は、生成されたファイルにマクロが含まれていないことです (元のドキュメントのファイル サイズ: 32k、生成されたドキュメントのファイル サイズは 19k)。
POI/HWPF を使用してすべての元の情報を保持することが可能である場合、誰かがいますか?
java - Java MS Word libarary
I've document and I want to change all template parameters like {name}, {address} to my own values. I tried to use POI HWPF Library, but I lost document formatting after saving. Even when I open my MS Word document with POI and save it (without any changes) document formatting is lost:) Formatting means centering, font size, etc (there are no any tables or pictures - just 'plain text').
What library I can use for this case? Maybe anyone have expirience with MS Word documents and java. Requirements: Open Source, Without using any Windows COM components (muliplatform), Not OOXML - Microsoft Word XP 2003.
There are similar question (about truncating document after saving) Java: parsing ms-word document using POI/HWPF
java - Apache POI HWPFネストリスト?
次のコードを使用して、hwpfを使用して単語ファイルからリスト構造を読み取りました。私の質問は、ネストされたリスト構造、つまりリスト内のリスト内のリストなどを読み取る方法です。
java - Apache POI HWPF - doc ファイルを pdf に変換する際の問題
私は現在、Apache poi を使用して Java プロジェクトに取り組んでいます。私のプロジェクトでは、docファイルをpdfファイルに変換したいと考えています。変換は正常に完了しましたが、テキスト スタイルやテキストの色ではなく、pdf のテキストのみを取得します。私のPDFファイルは白黒のように見えます。私のdocファイルは色付きで、テキストのスタイルが異なります。
これは私のコードです、
私を助けてください。
事前にthnx。
java - org.apache.poi.hwpf.usermodel.ParagraphのgetTableLevel()メソッド
apachePOIを使用してMSWord文書をテキストに変換する既存のコードを変更しようとしています。私はこのApachePOIAPIを初めて使用します。いくつかの整数値を返すorg.apache.poi.hwpf.usermodel.ParagraphクラスのGetTableLevel()メソッドがあり ます。
一部のテーブルでは、このメソッドは値1を返し、他の一部のテーブルでは0を返します。この動作を理解できません。
ここでこのAPIのJavaDocを見ましたが、このメソッドの戻り値についての説明はありません。
このメソッドの可能な戻り値を教えてもらえますか?
GetTableLevel()メソッドを呼び出すコードスニペットは次のとおりです。
啓発してください!!!
apache-poi - Apache poi で HWPF ドキュメントを作成する方法
テキストを段落に入れるのを手伝ってください。私はこのコードを持っています:
しかし、問題は、「from」文字列を範囲に直接入れると、結果のドキュメントに含まれますが、段落を作成して代わりにそこに入れると、ドキュメントが空になることです。Apache tika とその WordExtractor で処理しても何も得られません。
ところで /poi/template.doc は空のドキュメントです。
私がこのようにすれば:
from が "whatever" の場合、ドキュメントの先頭に "w" (イニシャル) の文字があります。これは一体何なのでしょうか。
hyperlink - ApachePOIHWPFハイパーリンクの抽出
HYPERLINK「ターゲット」ラベル
HWPFドキュメントからハイパーリンクを抽出するにはどうすればよいですか?docファイルから段落を取得し、必要に応じて正しいスタイル(太字、斜体など)を抽出できます。しかし、段落からハイパーリンクを識別して抽出するにはどうすればよいですか?
java - Apache Poi - Word 文書からすべてのリンクを削除する方法
Word 文書のすべてのハイパーリンクを削除し、テキストを保持したいと考えています。doc および docx 拡張子を持つ Word 文書を読むには、これら 2 つの方法があります。
apache poi ライブラリを使用して、Word 文書のすべてのリンクを削除することは可能ですか? そうでない場合、これを提供できる他のライブラリはありますか?