3

Nutch には、クロールされたドキュメントを分類するために使用されるステータス コードがいくつかあります。

Nutch が使用するコードの例は次のとおりです。

db_unfetched
db_fetched
db_gone
db_redir_perm
db_redir_temp
db_notmodified

コードの意味を明確に説明している場所はどこにありますか?

ここ Stackoverflow でフォーラムの投稿と回答者を読むと、コードをよく理解できます。また、このページにもいくつかの良い情報があります: http://wiki.apache.org/nutch/CrawlDatumStatesしかし、私は各ステータス コードの意味を説明するページを探しています。

4

1 に答える 1

5

公式のドキュメントはありませんが、CrawlDatumクラスからこれを取得できます。

  /** Page was not fetched yet. */
  public static final byte STATUS_DB_UNFETCHED      = 0x01;

  /** Page was successfully fetched. */
  public static final byte STATUS_DB_FETCHED        = 0x02;

  /** Page no longer exists. */
  public static final byte STATUS_DB_GONE           = 0x03;

  /** Page temporarily redirects to other page. */
  public static final byte STATUS_DB_REDIR_TEMP     = 0x04;

  /** Page permanently redirects to other page. */
  public static final byte STATUS_DB_REDIR_PERM     = 0x05;

  /** Page was successfully fetched and found not modified. */
  public static final byte STATUS_DB_NOTMODIFIED    = 0x06;
于 2013-06-01T04:44:56.177 に答える