nutch - 英語のサイトをクロールし、他の言語をクロールしないようにする方法は？

Question

こんにちは私は彼らの言語が英語であるサイトだけをクロールする必要があります。私はnutchが言語検出器のようなプラグインによってサイトの言語を検出できることを知っていますが、nutchが英語以外のサイトをクロールするのを防ぐ必要があります。その言語を理解するためにページをクロールする必要があることはわかっていますが、言語を検出できる最初の機会にサイトを離れたいと思っています。可能であれば教えてください。たとえば、サイトの2つまたは3つのページがフェッチされ、それらが英語ではなかった場合は、サイトを離れて、それらのページとそれらのすべてのURLを破棄する必要があります。助けてくれてありがとう。

score 2 · Accepted Answer

HTTPリクエストパラメータ（http://en.wikipedia.org/wiki/List_of_HTTP_header_fields）をざっと見た場合、コンテンツ言語を要求すると、「Content-Language：en」のような回答が得られます。

GETリクエストを実行する（そしてページ全体をダウンロードする）必要はありません。HEADリクエストでこのパラメーターを要求できます（ヘッダーのみをダウンロードするため）。

「たとえば、サイトの2つまたは3つのページがフェッチされ、それらが英語ではなかった場合、サイトを離れて、それらのページとそれらのすべてのURLを破棄する必要があります。」についてサイトは多言語である可能性があります。したがって、最初の3ページをスペイン語（または何でも）で取得でき、英語のページもありますが、サイトを離れます。

nutch - 英語のサイトをクロールし、他の言語をクロールしないようにする方法は？

1 に答える 1

Related

Reference