ここで少し脳がフリーズするので、いくつかのポインターを期待していました。基本的に、特定の div タグのコンテンツを抽出する必要があります。はい、正規表現は通常、これに対して承認されていないことを知っていますが、単純な Web スクレイピング アプリケーションであり、ネストされた div はありません。
私はこれを一致させようとしています:
<div class="entry">
<span class="title">Some company</span>
<span class="description">
<strong>Address: </strong>Some address
<br /><strong>Telephone: </strong> 01908 12345
</span>
</div>
簡単な vb コードは次のとおりです。
Dim myMatches As MatchCollection
Dim myRegex As New Regex("<div.*?class=""entry"".*?>.*</div>", RegexOptions.Singleline)
Dim wc As New WebClient
Dim html As String = wc.DownloadString("http://somewebaddress.com")
RichTextBox1.Text = html
myMatches = myRegex.Matches(html)
MsgBox(html)
'Search for all the words in a string
Dim successfulMatch As Match
For Each successfulMatch In myMatches
MsgBox(successfulMatch.Groups(1).ToString)
Next
どんな助けでも大歓迎です。