1

フォーム投稿のあるWebサイトをクロールする必要がある時点で立ち往生しています。Nutchはこれをサポートしていません。Nutchを使用してこれらのWebサイトをクロールできるようにするには、どうすればこれを回避できますか?より良い解決策はありますか?

4

2 に答える 2

1
  1. データを含むファイルを作成します:フォーム/フォームデータを送信するために認証/URLを必要とするURLの正規表現
  2. 標準プロトコルを変更する独自のhttpプロトコルプラグインを作成します-httpclientプラグイン。httpリクエストを行うためのURLで認証が必要であり、まだ認証が行われていない場合は、フォームに移動して送信してください。

これが最も簡単な解決策です。問題は、大量のWebサイトに対する簡単な解決策が1つもないことです。Cookieの有効期限/ログイン中のJavascriptの使用などに問題があります。NutchのJIRAを検索すると、それについて多くの議論がありました。

于 2012-07-15T12:36:14.890 に答える
1

これがあなたたちが探している答えです:

http://lifelongprogrammer.blogspot.com/2014/02/part1-using-apache-http-client-to-do-http-post-form-authentication.html

https://issues.apache.org/jira/browse/NUTCH-827

これらの2つのリンクには、完全なサンプルコードがあります。各手順を正しく実行すると、Nutchでフォームベースの認証を実行できるようになります。

于 2014-05-01T19:32:34.633 に答える