index.php という単語を含むすべての URL をリストするテストとしてコードを更新しましたが、他のものも表示されます。
ここに私の作業コードがあります:
Private Sub Button1_Click(sender As Object, e As EventArgs) Handles Button1.Click
Dim webClient As New System.Net.WebClient
Dim WebSource As String = webClient.DownloadString("http://www.google.com/search?lr=&cr=countryCA&newwindow=1&hl=fil&as_qdr=all&biw=1366&bih=667&tbs=ctr%3AcountryCA&q=index.php&oq=index.php&gs_l=serp.12..0l10.520034.522335.0.525032.9.9.0.0.0.0.497.3073.1j1j2j0j5.9.0....0...1c.1.25.serp..5.4.884.J4smY262XgY")
RichTextBox1.Text = WebSource
ListBox1.Items.Clear()
Dim htmlDoc As New HtmlAgilityPack.HtmlDocument()
htmlDoc.LoadHtml(WebSource)
For Each link As HtmlNode In htmlDoc.DocumentNode.SelectNodes("//cite")
If link.InnerText.Contains("index.php") Then
ListBox1.Items.Add(link.InnerText)
End If
Next
End Sub
予想される出力は、次のように、index.php を含む Web サイトのみである必要があります。
http://www.site1.com/index.php
http://www.site2.com/index.php
http://www.site3.com/index.php
http://www.site4.com/index.php
http://www.site5.com/index.php
しかし問題は、index.php リンクの他の部分が含まれなくなるまで停止することです。
たとえば、完全な URL は
http://www.site5.com/index.php?test_test=test&test
プログラムは表示のみ
http://www.site5.com/index.php
または、次のような壊れたドットになります
http://www.site5.com/index.php...test....test