nutch1.4が箱から出してすぐにフォームを這うのではないかと思っていました。たとえば、ドロップダウンリストがある場合、ドロップダウンリストの項目からすべての可能なページを結合しようとしますか?
ありがとう
nutch1.4が箱から出してすぐにフォームを這うのではないかと思っていました。たとえば、ドロップダウンリストがある場合、ドロップダウンリストの項目からすべての可能なページを結合しようとしますか?
ありがとう
Nutch は、HTTP リクエストを介して目的のページの html ソースを取得します。ページの HTML ソースに、その中にコード化されたドロップダウン リストを含めることができるようになりました。それが dojo / ajax のような複雑なスクリプトを使用してコーディングされている場合、ブラウザのように解釈することはできません。ドロップダウン リストのアウトリンクが html ソースですぐに表示される場合、nutch はそれらのページをクロールします。通常のテキスト コンテンツとは別に、Nutch は HTML ページの Java スクリプト部分の解析も行います。
これを確認するために、ページを bowser / wget it で開きます。ページのソースをメモ帳/vi などのテキスト エディターで表示します。ドロップダウン ボックスへのアウトリンクが表示されますか? はいの場合、nutch はそれらのアウトリンクをクロールし、そうでない場合はクロールしません。