0

ページスクレイピングは初めてで、どこから始めればよいかわかりません。ページスクレイピングを行う最も簡単な方法は何ですか? それについてあなたの意見は何ですか、それにはどの Web テクノロジーが最適ですか? 誰でも私を助けることができます、ありがとう。

4

2 に答える 2

0

html aglity packを調べてください。

例:

まあ、それは依存します。たとえば、1 つのタグにクラスがあり、それが一意である場合、それは 1 つの関数ですが、複数のタグがある場合は、タグの場所に基づいて関数を考えて作成する必要があります。 html 要素をカウントする必要があります。たとえば、テーブル行をループする必要がある場合もあります。

以下の例は、必要なものと同様のことを行います。(ページレイアウトに変更があった場合、失敗する可能性があるため、まだ機能するかどうかはわかりません。)しかし、アイデアが得られ、そこから進むことができます.

PS - 質問するときは、あいまいな質問ではなく、正確な問題を教えてください。

C# の例:

                String openUrl = @"http://www.ebay.com/sch/-/11724/i.html?_nkw=" + some_part_number + "&_armrs=1&LH_Complete=1";

                HtmlWeb hw = new HtmlWeb();
                hw.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)";
                HtmlAgilityPack.HtmlDocument doc = hw.Load(openUrl);

                foreach (HtmlNode nd in doc.DocumentNode.SelectNodes("//tr[@itemprop='offers']"))
                {
                    String title = "";
                    title = Regex.Split(nd.InnerHtml.ToString(), ("title='"))[1].Trim();
                    title = Regex.Split(title, "'")[0].Trim();
                }
于 2012-12-01T21:35:44.450 に答える
-1

おそらく最も簡単な方法は、yahoo クエリ言語 YQL を使用することです。使い方は簡単です。U は yql で yahoo パイプを使用することもできます。ググってください。ここから始めることができます: http://ijaar.com/basic-yql-tutorials/

また、スタックでのスクリーン スクレイピングに関する質問もありますので、チェックしてみてください。

はい、yql はそのための唯一の手法ではありません。php、xquery、さらには python を使用することもできますが、私の意見では、それが最も簡単で、非常にうまく機能します。

于 2012-12-01T21:28:02.283 に答える