solr - Nutch/Solr Indexing Sentences - パーサープラグインまたはインデックス作成プラグイン?

翻译自：https://stackoverflow.com/questions/10256598 2012-04-21T05:50:36.677

398 次

1

完全な文を独自のフィールドとして索引付けしようとしています。Nutch で OpenNLP や LingPipe などを使用して文を分割する場合、文検出コードをどこにプラグインすればよいですか? 解析段階ですか、それとも索引付け段階ですか?

1 に答える 1

0

両方の場所にいくつかの変更が必要です。

ナットパーサーは、クロールされたコンテンツから書式設定を切り落とします。したがって、コンテンツがナットセグメントに格納されると、改行はなくなります。その部分を修正する必要があります。

デフォルトでは、nutch (これを行う solr) は、索引付けのために文ではなく単語を考慮します。だからあなたもそこをのぞく必要があります。

于 2012-04-21T19:09:33.167 に答える