さまざまなブログから HTML を取得しようとしていますが、異なるプロバイダーが同じタグを異なる方法で使用していることに気付きました。
たとえば、次の 2 つの主要なプロバイダーでは、メタ名ジェネレーター タグを異なる方法で使用しています。
- ブロガー:
<meta content='blogger' name='generator'/>
(最初にコンテンツ、後に名前、そしてそうです、一重引用符!) - WordPress:
<meta name="generator" content="WordPress.com" />
(名前が先、内容が後)
すべてのケース (一重/二重引用符、行の最初/最後) のコンテンツの値を抽出する方法はありますか?
PS私はJavaを使用していますが、一般的に正規表現の場合、答えはおそらくより多くの人に役立つでしょう。