記事を取得するためのフレームワークを探していると、Nutch2.1が見つかります。それぞれの私の計画と質問は次のとおりです。
1
記事リストページをurl/seed.txtに追加します。これが1つの問題です。私が実際に索引付けしたいのは、記事リストページではなく、記事ページです。ただし、リストページのインデックス作成を許可しない場合、リストページが入り口であるため、Nutchは何もしません。では、リストページなしで記事ページのみにインデックスを付けるにはどうすればよいですか?
2
「作成者」、「日付」、「記事の本文」、「見出し」、およびHTMLからのその他の情報を解析するプラグインを作成します。Nutch 2.1の「Parser」プラグインインターフェイスは次のとおりです。ParsegetParse(String url、WebPage page)そして「WebPage」クラスにはいくつかの事前定義された属性があります。
public class WebPage extends PersistentBase {
// ...
private Utf8 baseUrl;
// ...
private ByteBuffer content; // <== This becomes null in IndexFilter
// ...
private Utf8 title;
private Utf8 text;
// ...
private Map<Utf8,Utf8> headers;
private Map<Utf8,Utf8> outlinks;
private Map<Utf8,Utf8> inlinks;
private Map<Utf8,Utf8> markers;
private Map<Utf8,ByteBuffer> metadata;
// ...
}
So, as you can see, there are 5 maps I can put my specified attributes in. But, 'headers', 'outlinks', 'inlinks' seem not used for this. Maybe I could put those information into markers or metadata. Are they designed for this purpose?
BTW, the Parser in trunk looks like: 'public ParseResult getParse(Content content)', and seems more reasonable for me.
3
記事がSolrに索引付けされた後、別のアプリケーションが「日付」でそれを照会し、記事情報をMysqlに保管できます。ここでの私の質問は、Nutchが記事をMysqlに直接保存できるかどうかです。または、インデックスの動作を指定するプラグインを作成できますか?
Nutchは私の目的に適していますか?そうでない場合、皆さんは私のために別の高品質のフレームワーク/ライブラリを提案しますか?ご協力いただきありがとうございます。