Crawler4jクローラーを使用していくつかのドメインをクロールしています。クローラーの効率を改善したいので、クローラーが帯域幅全体を使用して、特定の期間にできるだけ多くのURLをクロールするようにします。そのために、次のことを行っています設定:-
- 号を増やしました。クローラー スレッドを 10 に (この関数 ContentCrawler('classfilename',10); を使用)
- 礼儀正しさの遅延を 50 ミリ秒に減らしました (Crawlconfig.setpolitenessdelay(50); を使用)。
- クロールの深さを 2 にしています (Crawlconfig.setMaxDepthOfCrawling(2) を使用)
今私が知りたいのは: -
1) この種の設定に副作用はありますか。
2) クローラーの速度を向上させるために、これ以外に何かしなければならないことはありますか?
3)すべての設定の最大制限を教えてもらえますか(例:-一度にcrawler4jでサポートされるスレッドの最大数など)。Crawler4jのコードをすでに調べましたが、どこにも制限が見つかりませんでした。
4) robots.txt ファイルをチェックしないでドメインをクロールする方法。
5)ページフェッチャーはどのように機能しますか(簡単に説明してください)
質問がばかげている場合は、助けていただければ幸いです。