Twitter をクロールして URL を抽出しなければならない小さな Web クローラーがあります。私は、.net フレームワークで提供されている Webclient クラスの修正版を使用しています。
通常、これは、サイトからの短縮 URL であっても問題なく機能します。
ただし、短縮 URL をたどると、Web クライアントがタイムアウトします。
彼らは特定のクライアントをフィルタリングしていると思いますか?
どうすればこれを修正できますか、またはなぜそれが起こっているのですか?
プロキシを介さずに、ネットワークからその URL にアクセスできると確信していますか?
Web クライアント コントロールはリダイレクトに従いますか? TinyURLを作成してこれをテストし、Web クライアントがそれを参照できるかどうかを確認できます。
ブラウザでプロキシを経由する場合は、WebClient コントロールで設定する必要があります。
クライアントをフィルタリングしているかどうかを簡単にテストできます。たとえば、Request オブジェクトの UserAgent を FireFox のそれに一致するように設定します。