.doc からハイパーリンクを抽出する方法はありますか。データベースにインポートする必要があるハイパーリンクがドキュメントにたくさんあります。
ドキュメントを HTML に変換しようとしましたが、ハイパーリンクが転送されません。
よろしく、ムラデン
同様の問題があり、最終的に Aspose.Words というサード パーティ コンポーネントを使用することになりました。ここで見つけることができます: http://www.aspose.com
.NET および Java で使用できます。
これは最初の質問から数か月後のことだと思いますが、Word Automation を使用して .doc ファイル内のハイパーリンクを抽出することもできます。API には、簡単に抽出できるハイパーリンク オブジェクトがあります。
ファイルを OpenOffice にインポートして、ハイパーリンクが転送されるかどうかを確認してください。OpenDocument は XML を含む単なる ZIP ファイルであり、慣れれば非常に簡単に解析できます。
私は次のことをしました。officeXP で .doc ファイルを開き、ブログとして公開した後、そのブログをフィルター処理された Web ページの形式で保存しました。これにより、簡単に解析できる素敵な HTML が得られます。