c# - Webメールページをスクリーンスクレイピングするにはどうすればよいですか?

Question

サイトにログインしてWebページのコンテンツをスクレイピングする必要があるプロジェクトを行っています。私は次のコードを試しました：

protected void Page_Load(object sender, EventArgs e)
{
    WebClient webClient = new WebClient();
    string strUrl = "http://www.mail.yahoo.com?username=sakthivel123&password=operator&login=1";
    byte[] reqHTML;
    reqHTML = webClient.DownloadData(strUrl);
    UTF8Encoding objUTF8 = new UTF8Encoding();
    Label1.Text = objUTF8.GetString(reqHTML1);
}

これにより、メールのログインページがスクレイピングされます。しかし、受信トレイの詳細をスクレイピングする必要があります。今後の進め方を教えてください。よろしくお願いします。

score 1 · Accepted Answer

この質問と関連する質問を参照してください。ウェブページを適切に廃棄する前に、ウェブページの HTML ソースを調査する必要があります。そのため、手動でログインして受信トレイページのソースを取得し、それを調べてスクレイピングします。

yahoo の Web メールAPIを使用しませんか? これはより良い解決策です。

score 0 · Accepted Answer

この質問を参照してください-eコマースWebサイトをスキャンし、製品の写真+価格+説明を抽出するC＃プログラムを作成する

PS: それは「スクレイプ」と呼ばれ、スクリーンスクレイプを実行する行為は (ご想像のとおりです!) 「スクリーンスクレイピング」と呼ばれます。「scrap」という言葉は、動詞として使用される場合、破棄することを意味します - 「プロジェクトは破棄されました!」など。;-)

score 0 · Accepted Answer

最初に Fiddler というツールを使用して、ターゲットサイトとブラウザ間の通信を分析することをお勧めします。すべての http ヘッダー、Cookie、コンテンツなどを確認できます。

ログイン、適切な Cookie の設定など、webClient オブジェクトがブラウザーのアクションを複製できるようになったら、手順を自動化できます。

最後に、目的の HTML を作成したら、正規表現を使用して必要な情報を抽出します。

c# - Webメールページをスクリーンスクレイピングするにはどうすればよいですか?

3 に答える 3

Related

Reference