5

サイトのクロールに問題があります...2 つのドロップダウン リストを含むフォームがあります....クロールを開始すると、クローラーはフォームからリンクの一部のみを取得します....最初のドロップダウン リストから2番目のドロップダウンからのように、オプションの一部です....nutch-defaults.xmlファイルでいくつかの構成を変更しようとしましたが、すべて同じです...

I change 
fetcher.threads.per.queue  1 - 10         
db.ignore.internal.links true - false  
db.ignore.external.links false - true  
http.content.limit    65536 - 65536000  
file.content.limit    65536 - 65536000  
db.update.max.inlinks  10.000 - 100.000

フォーム内のすべてのオプションをクロールするのに役立つ他のオプションはありますか?? 回答ありがとうございます。

4

2 に答える 2

1

申し訳ありませんが、コメントを投稿するには担当者が低すぎます!!!

リンクを持っていますか。

また、ドロップダウンはajaxか何か空想です。Nutch from memory は、ページにあるものだけをクロールします。つまり、ページのロード時に最初の 10 個をロードし、ユーザーがスクロールしたときに残りをサービスでロードする場合、それを見つけることができないと思います。

いくつかの詳細情報は、ページに適しています....

乾杯ロビン

于 2012-10-13T02:38:25.380 に答える
0

ご回答有難うございます。これは [リンク] (auto.am/en) です。クロール後、約 100 のメーカーしかなく、所有している自動車メーカーのすべてのモデルではありません。...リンクを取得した後、すべての車のメーカーとモデルをクロールするためのソリューションを提案していただければ幸いです:)。ありがとう。

于 2012-10-16T07:44:02.097 に答える