URL からデータを取得する HTTP Get 要求メソッドを作成する方法を学習しましたが、Web ページ上のリンクのリストのみを表示するように応答をフィルター処理したいと考えています。
たとえば、HTML に次のテキストが含まれていたとします。
<link href="http://www.thompsons.co.uk">
次に、印刷する必要があります。
URL からデータを取得する HTTP Get 要求メソッドを作成する方法を学習しましたが、Web ページ上のリンクのリストのみを表示するように応答をフィルター処理したいと考えています。
たとえば、HTML に次のテキストが含まれていたとします。
<link href="http://www.thompsons.co.uk">
次に、印刷する必要があります。
HTMLを「解析」するために正規表現を使用しないことを強くお勧めします。処理しているWebページのフォーマットを制御できない限り、正規表現に基づくソリューションは脆弱でバグが多い傾向があります。
代わりに、寛容なHTMLパーサーを使用してください。この質問はいくつかの選択肢を提供します: Java用のHTML/XMLパーサー
データ全体を完全に読み取り、正規表現で解析してリンクを抽出します。詳細はこちら: http://www.mkyong.com/regular-expressions/how-to-extract-html-links-with-regular-expression/