英語以外のページをインデックス作成プロセスから除外する簡単なメカニズムがあるかどうか疑問に思っていましたか? たとえば、dmoz シード URL リストには、多くの言語のウィキペディア ページが含まれており、それらは除外の第一候補です。
任意のヒント?
すべての英語ページが従う URL パターンはありますか? 例えば。ウィキペディアにはen
、英語のような URL に「 」が含まれています
. en
他の言語の場合、次のような URL にはありません。
http://gl.wikipedia.org/wiki/Categor%C3%ADa:Wikipedia:Libros
それを定義できる場合は、 $NUTCH_CONF_DIR/regex-urlfilter.txt ファイルに正規表現ルールを追加することで簡単に実行できるため、英語のパターンを持つページを含め、他のパターンを破棄します。