Scala でメタ タグを解析しようとしています。次のように、XMLマッチングでこれを試してみました
`html // meta ...` etc,
しかし、この特定のページのこれらのメタ タグには終了タグまたは... />
囲みがないため、不正な XML エラーが発生します。
したがって、次の HTML の場合、
val html = """<meta name="description" content="This is some meta description">"""
次の正規表現マッチャーを使用しています。
val metaDescription = """.*meta name="Description" content="([^"]+)"""".r
- と照合しようとすると
val metaDescription(desc) = html
、scala.MatchError が発生します。 - 試行錯誤する
metaDescription.findAllIn(html)
と、説明だけでなく、文字列全体が取得されます。
内部の値だけを取得するにはどうすればよいcontent
ですか?
編集
私が望んでいた結果を得ました:
metaDescription.findAllIn(html).matchData foreach {
desc => println(desc.group(1))
}
しかし、それは長い道のりのようです。より良い解決策はありますか?