2

次の方法で Anemone gem を使用しています。

  • 最初の URL (シード) にアクセスし、ページのコンテンツをデータベースに保存し、このページからデータベースへのすべてのリンクも保存します (まだデータベースにないすべてのリンク)。
  • データベースから次のリンクを読み込み、そのコンテンツと他のリンクを再度保存します
  • 他にリンクがない場合は、すべてのリンクを再度 (一定期間後に) クロールして、古いコンテンツを新しいコンテンツで上書きします。

これはかなりうまく機能しますが、ログインが必要なページをクロールする方法はありますか (ユーザー名とパスワードがわかっている場合)。フォームに入力する機能を提供する Mechanize gem は知っていますが、それを自分のプロセスに統合する方法がわかりません (可能な場合)。または、ログインフォームの「背後」でページをクロールする方法は他にありますか?

4

2 に答える 2

0

あなたの場合、次の解決策のいずれかを使用することをお勧めします。

この 2 つのソリューションにより、フォームに入力して Web 要素をクリックし、デフォルトのインターネット ユーザーが行うことをすべて実行できるためです。Mechanize gem の場合、これは不可能です。

于 2016-04-19T16:15:00.187 に答える