YouTube から PSY の江南スタイル ビデオのすべてのコメント (2,600,000 以上のコメント、5000 ページ以上) をクロールする必要があり ます。
問題は:
1) gdata サービスを使用している場合、Google が提供するコメント フィードは 1000 以下です
2) html タグを直接クロールする場合:
site(http://www.youtube.com/all_comments?v=9bZkp7q19f0&page=$(page))
page パラメーターを大きくすると、ページにコメントが表示されないページ #101 の後で失敗します。
皆さん、どうすればこの問題を回避できますか?
PS: 私のクローラーは、ロードされたページのコメント タグをチェックし、次のページをロードする javascript を使用して chrome 拡張機能として実装されています。