0

私は、どの会社のクライアントが私たちのウェブサイトにリンクしているかを監視できるようにするプログラムに取り組んでいます. 私がそれを機能させることができれば、クライアントのWebサイトを手動で検索するのに無駄な時間を大幅に節約できます.

現在、すべてのクライアントのホームページ URL を格納するデータベースがあります。私のプログラムは、これらの URL をループして、ソースコードを取得し、ソースコードをテキスト ボックスに配置しています。次に、テキストボックスで会社の URL を検索し、「True」または「False」の値を返します。

「True」の場合、リンクは存在しますが、「False」の場合、プログラムで同じサイトの他のページを検索し、リンクが他の場所に存在するかどうかを確認する必要があります。

これを行うには、ソースコード (既にテキストボックス内) を循環し、同じサイトの他のページにリンクしている他のすべての URL (www.example.com、www.example.com/contact-us、www など) を見つけるプログラムが必要です。 .example.com/about) にアクセスし、それらをリストに保存します。これを行う方法がわかりませんか?

4

1 に答える 1

0

に基づいたソリューションはどうですか...

正規表現ヘルプ: 拡張子 .css、.js、.jpg、.gif、.png を除く URL のリストを取得する

            Dim MyRegex As New Regex("href=""(?<URL>(?:(?!javascript)(?!#))[a-zA-Z0-9\~\!\@\#\$" + "\%\^\&amp;\*\(\)_\-\=\+\\\/\?\.\:\;\'\,]+)" + "(?<!(?:\.png|\.js|\.jpg|\.jpeg|\.css|\.gif|\.zip|\.r" + "ar))""(?:$|>|\s)", RegexOptions.Multiline Or RegexOptions.CultureInvariant Or RegexOptions.Compiled)

            Dim matches As MatchCollection = MyRegex.Matches(textbox1.text)
            For Each item In matches
                ListBox1.Items.Add(item.ToString())

            Next

次に、関連性のないサイトを除外する必要がありますか?

于 2012-10-17T15:28:29.717 に答える