HYPERLINK「ターゲット」ラベル
HWPFドキュメントからハイパーリンクを抽出するにはどうすればよいですか?docファイルから段落を取得し、必要に応じて正しいスタイル(太字、斜体など)を抽出できます。しかし、段落からハイパーリンクを識別して抽出するにはどうすればよいですか?
HYPERLINK「ターゲット」ラベル
HWPFドキュメントからハイパーリンクを抽出するにはどうすればよいですか?docファイルから段落を取得し、必要に応じて正しいスタイル(太字、斜体など)を抽出できます。しかし、段落からハイパーリンクを識別して抽出するにはどうすればよいですか?
お気づきのように、.doc形式ではハイパーリンクを最も簡単な方法で保存しません...
ハイパーリンクは、特別なマーカーが付いた単一のCharacterRunになります。検出したら、引用符に基づいてテキストを分割します。
Apache Tikaでこれを行う良い例があります。WordExtractorのhandleSpecialCharacterRunsメソッドを見て、それが行われていることを確認してください。