2

単純な Web スクレイパー (ルート URL からすべてのリンクを取得し、それらのリンクからすべてのメールを取得) を作成している場合、HTML Agility Pack を使用する価値はありますか? 私は実際に HTML タグを調べているわけではありません。ドキュメント全体から電子メールを探しているだけです。

HTML アジリティ パックを使用する方が効率的でしょうか?

私はこれらの電子メールを持っている必要があり、約 100 のリンクがあるので、それらを厳密に取り除きます。約 500 通の電子メールのみがスクレイピングされます。心配はいりません。ここでは倫理を念頭に置いています。

4

1 に答える 1

2

これについてSOには多くの質問があります-私が読んだもののほとんどは、Webスクレイピングに正規表現を使用しないと言っています.

一方、テキストの HTML の性質に関係なくテキストの解析だけが必要な場合 (私が正しく理解している場合はそうします)、正規表現を使用する方がよい場合があります。

于 2010-02-10T13:48:17.653 に答える