1

完全な文を独自のフィールドとして索引付けしようとしています。Nutch で OpenNLP や LingPipe などを使用して文を分割する場合、文検出コードをどこにプラグインすればよいですか? 解析段階ですか、それとも索引付け段階ですか?

4

1 に答える 1

0

両方の場所にいくつかの変更が必要です。

ナット パーサーは、クロールされたコンテンツから書式設定を切り落とします。したがって、コンテンツがナット セグメントに格納されると、改行はなくなります。その部分を修正する必要があります。

デフォルトでは、nutch (これを行う solr) は、索引付けのために文ではなく単語を考慮します。だからあなたもそこをのぞく必要があります。

于 2012-04-21T19:09:33.167 に答える