フォーム投稿のあるWebサイトをクロールする必要がある時点で立ち往生しています。Nutchはこれをサポートしていません。Nutchを使用してこれらのWebサイトをクロールできるようにするには、どうすればこれを回避できますか?より良い解決策はありますか?
1606 次
2 に答える
1
- データを含むファイルを作成します:フォーム/フォームデータを送信するために認証/URLを必要とするURLの正規表現
- 標準プロトコルを変更する独自のhttpプロトコルプラグインを作成します-httpclientプラグイン。httpリクエストを行うためのURLで認証が必要であり、まだ認証が行われていない場合は、フォームに移動して送信してください。
これが最も簡単な解決策です。問題は、大量のWebサイトに対する簡単な解決策が1つもないことです。Cookieの有効期限/ログイン中のJavascriptの使用などに問題があります。NutchのJIRAを検索すると、それについて多くの議論がありました。
于 2012-07-15T12:36:14.890 に答える
1
これがあなたたちが探している答えです:
と
https://issues.apache.org/jira/browse/NUTCH-827
これらの2つのリンクには、完全なサンプルコードがあります。各手順を正しく実行すると、Nutchでフォームベースの認証を実行できるようになります。
于 2014-05-01T19:32:34.633 に答える