web-crawler - 記事のクロールのためにNutchを拡張する方法

Question

記事を取得するためのフレームワークを探していると、Nutch2.1が見つかります。それぞれの私の計画と質問は次のとおりです。

1

記事リストページをurl/seed.txtに追加します。これが1つの問題です。私が実際に索引付けしたいのは、記事リストページではなく、記事ページです。ただし、リストページのインデックス作成を許可しない場合、リストページが入り口であるため、Nutchは何もしません。では、リストページなしで記事ページのみにインデックスを付けるにはどうすればよいですか？

2

「作成者」、「日付」、「記事の本文」、「見出し」、およびHTMLからのその他の情報を解析するプラグインを作成します。Nutch 2.1の「Parser」プラグインインターフェイスは次のとおりです。ParsegetParse（String url、WebPage page）そして「WebPage」クラスにはいくつかの事前定義された属性があります。

public class WebPage extends PersistentBase {
  // ...
  private Utf8 baseUrl;
  // ...
  private ByteBuffer content; // <== This becomes null in IndexFilter
  // ...
  private Utf8 title;
  private Utf8 text;
  // ...
  private Map<Utf8,Utf8> headers;
  private Map<Utf8,Utf8> outlinks;
  private Map<Utf8,Utf8> inlinks;
  private Map<Utf8,Utf8> markers;
  private Map<Utf8,ByteBuffer> metadata;
  // ...
}

So, as you can see, there are 5 maps I can put my specified attributes in. But, 'headers', 'outlinks', 'inlinks' seem not used for this. Maybe I could put those information into markers or metadata. Are they designed for this purpose?
BTW, the Parser in trunk looks like: 'public ParseResult getParse(Content content)', and seems more reasonable for me.

3

記事がSolrに索引付けされた後、別のアプリケーションが「日付」でそれを照会し、記事情報をMysqlに保管できます。ここでの私の質問は、Nutchが記事をMysqlに直接保存できるかどうかです。または、インデックスの動作を指定するプラグインを作成できますか？

Nutchは私の目的に適していますか？そうでない場合、皆さんは私のために別の高品質のフレームワーク/ライブラリを提案しますか？ご協力いただきありがとうございます。

score 1 · Accepted Answer

いくつかの Web サイトからの記事の抽出だけを探している場合は、http://www.crawl-anywhere.com/ をチェックしてください。

これには、Boilerpipe 記事エクストラクタを使用するように指定できる管理 UI が付属しています (これは素晴らしいことです)。クロールするページと、クロールしてインデックスに登録するページを URL パターンマッチングで指定することもできます。

web-crawler - 記事のクロールのためにNutchを拡張する方法

1 に答える 1

Related

Reference