Nutch を介してプレーンな HTML ページのみをクロール/フェッチすることは可能ですか (つまり、写真、ビデオ、フラッシュ、Excel、exe、pdf、またはワード ファイルは含まれません)?
ページをチェックして Nutch 経由でページContent-Type
のみを取得する方法は?text/html
Nutch を介してプレーンな HTML ページのみをクロール/フェッチすることは可能ですか (つまり、写真、ビデオ、フラッシュ、Excel、exe、pdf、またはワード ファイルは含まれません)?
ページをチェックして Nutch 経由でページContent-Type
のみを取得する方法は?text/html