ページスクレイピングは初めてで、どこから始めればよいかわかりません。ページスクレイピングを行う最も簡単な方法は何ですか? それについてあなたの意見は何ですか、それにはどの Web テクノロジーが最適ですか? 誰でも私を助けることができます、ありがとう。
2 に答える
html aglity packを調べてください。
例:
まあ、それは依存します。たとえば、1 つのタグにクラスがあり、それが一意である場合、それは 1 つの関数ですが、複数のタグがある場合は、タグの場所に基づいて関数を考えて作成する必要があります。 html 要素をカウントする必要があります。たとえば、テーブル行をループする必要がある場合もあります。
以下の例は、必要なものと同様のことを行います。(ページレイアウトに変更があった場合、失敗する可能性があるため、まだ機能するかどうかはわかりません。)しかし、アイデアが得られ、そこから進むことができます.
PS - 質問するときは、あいまいな質問ではなく、正確な問題を教えてください。
C# の例:
String openUrl = @"http://www.ebay.com/sch/-/11724/i.html?_nkw=" + some_part_number + "&_armrs=1&LH_Complete=1";
HtmlWeb hw = new HtmlWeb();
hw.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)";
HtmlAgilityPack.HtmlDocument doc = hw.Load(openUrl);
foreach (HtmlNode nd in doc.DocumentNode.SelectNodes("//tr[@itemprop='offers']"))
{
String title = "";
title = Regex.Split(nd.InnerHtml.ToString(), ("title='"))[1].Trim();
title = Regex.Split(title, "'")[0].Trim();
}
おそらく最も簡単な方法は、yahoo クエリ言語 YQL を使用することです。使い方は簡単です。U は yql で yahoo パイプを使用することもできます。ググってください。ここから始めることができます: http://ijaar.com/basic-yql-tutorials/
また、スタックでのスクリーン スクレイピングに関する質問もありますので、チェックしてみてください。
はい、yql はそのための唯一の手法ではありません。php、xquery、さらには python を使用することもできますが、私の意見では、それが最も簡単で、非常にうまく機能します。