1

HYPERLINK「ターゲット」ラベル

HWPFドキュメントからハイパーリンクを抽出するにはどうすればよいですか?docファイルから段落を取得し、必要に応じて正しいスタイル(太字、斜体など)を抽出できます。しかし、段落からハイパーリンクを識別して抽出するにはどうすればよいですか?

4

1 に答える 1

0

お気づきのように、.doc形式ではハイパーリンクを最も簡単な方法で保存しません...

ハイパーリンクは、特別なマーカーが付いた単一のCharacterRunになります。検出したら、引用符に基づいてテキストを分割します。

Apache Tikaでこれを行う良い例があります。WordExtractorのhandleSpecialCharacterRunsメソッドを見て、それが行われていることを確認してください。

于 2011-12-01T10:47:47.017 に答える