vb.net - Web ページをテキストファイルにダウンロードする

Question

私は動作する次のコードを持っています。

Imports System.IO
Imports System.Net

Module Module1

    Sub Main()

        Dim webClient1 As New WebClient()
        webClient1.Encoding = System.Text.Encoding.ASCII
        webClient1.DownloadFile("http://www.bmreports.com/servlet/com.logica.neta.bwp_MarketIndexServlet?displayCsv=true", "C:\temp\stream.txt")
    End Sub

End Module

これにより、テキストファイルが作成されますが、すべての html もダウンロードされます。これを省略して、ページに表示されるテキストだけを取得するにはどうすればよいですか?

score 1 · Accepted Answer

正規表現を使用して、ドキュメントからすべての html タグを削除できます。

  Dim source as string = File.ReadAllText("C:\temp\stream.txt")

  'Clean html tags
  source = StripTagsRegex(source)

  'Strip function

  Private Function StripTagsRegex(source As String) As String
    Return Regex.Replace(source, "<.*?>", String.Empty)
  End Function

ここに、正規表現の例を示します。テキストのみを抽出します。

http://regexr.com?36ori

vb.net - Web ページをテキスト ファイルにダウンロードする

1 に答える 1

Related

Reference

vb.net - Web ページをテキストファイルにダウンロードする