0

サイトにログインしてWebページのコンテンツをスクレイピングする必要があるプロジェクトを行っています。私は次のコードを試しました:

protected void Page_Load(object sender, EventArgs e)
{
    WebClient webClient = new WebClient();
    string strUrl = "http://www.mail.yahoo.com?username=sakthivel123&password=operator&login=1";
    byte[] reqHTML;
    reqHTML = webClient.DownloadData(strUrl);
    UTF8Encoding objUTF8 = new UTF8Encoding();
    Label1.Text = objUTF8.GetString(reqHTML1);
}

これにより、メールのログイン ページがスクレイピングされます。しかし、受信トレイの詳細をスクレイピングする必要があります。今後の進め方を教えてください。よろしくお願いします。

4

3 に答える 3

1

この質問と関連する質問を参照してください。ウェブページを適切に廃棄する前に、ウェブページの HTML ソースを調査する必要があります。そのため、手動でログインして受信トレイ ページのソースを取得し、それを調べてスクレイピングします。

yahoo の Web メールAPIを使用しませんか? これはより良い解決策です。

于 2009-04-17T05:05:03.753 に答える
0

この質問を参照してください-eコマースWebサイトをスキャンし、製品の写真+価格+説明を抽出するC#プログラムを作成する

PS: それは「スクレイプ」と呼ばれ、スクリーン スクレイプを実行する行為は (ご想像のとおりです!) 「スクリーン スクレイピング」と呼ばれます。「scrap」という言葉は、動詞として使用される場合、破棄することを意味します - 「プロジェクトは破棄されました!」など。;-)

于 2009-04-17T05:03:37.237 に答える
0

最初に Fiddler というツールを使用して、ターゲット サイトとブラウザ間の通信を分析することをお勧めします。すべての http ヘッダー、Cookie、コンテンツなどを確認できます。

ログイン、適切な Cookie の設定など、webClient オブジェクトがブラウザーのアクションを複製できるようになったら、手順を自動化できます。

最後に、目的の HTML を作成したら、正規表現を使用して必要な情報を抽出します。

于 2009-04-17T05:20:19.660 に答える