0

競合他社がリンクしているサイトを見つけるのに役立つプログラムを書いています。

そのために、HTML ファイルを解析し、内部リンクと外部リンクの 2 つのリストを生成するプログラムを作成しています。

内部リンクを使用して Web サイトをさらにクロールします。実際に探しているのは外部リンクです。

.NET RegEx を使用して HTML ファイルを解析し、1. 外部リンクを見つけるにはどうすればよいですか。2. 内部リンク。

よろしくお願いします、エイタン・レヴィット。

編集:質問に答えて-いいえ-私は正規表現に縛られていません。他のアイデアを使用できます。

4

2 に答える 2

8

これには正規表現を使用しないでください。

HTMLの解析専用に設計されたHTML Agility Packなどを使用します。(CodePlex ホームページには、ページ内のすべてのリンクを見つける例もあります。)

于 2009-07-01T15:35:59.590 に答える
0

Html の解析に Regex を使用していましたが、これは非常に高速ですが、開発コストを削減するためのより良いオプションがあります。

Linq To Html を試してみる

于 2009-07-02T05:43:10.227 に答える