1

nutch1.4が箱から出してすぐにフォームを這うのではないかと思っていました。たとえば、ドロップダウンリストがある場合、ドロップダウンリストの項目からすべての可能なページを結合しようとしますか?

ありがとう

4

1 に答える 1

1

Nutch は、HTTP リクエストを介して目的のページの html ソースを取得します。ページの HTML ソースに、その中にコード化されたドロップダウン リストを含めることができるようになりました。それが dojo / ajax のような複雑なスクリプトを使用してコーディングされている場合、ブラウザのように解釈することはできません。ドロップダウン リストのアウトリンクが html ソースですぐに表示される場合、nutch はそれらのページをクロールします。通常のテキスト コンテンツとは別に、Nutch は HTML ページの Java スクリプト部分の解析も行います。

これを確認するために、ページを bowser / wget it で開きます。ページのソースをメモ帳/vi などのテキスト エディターで表示します。ドロップダウン ボックスへのアウトリンクが表示されますか? はいの場合、nutch はそれらのアウトリンクをクロールし、そうでない場合はクロールしません。

于 2012-05-11T03:16:33.437 に答える