Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
完全な文を独自のフィールドとして索引付けしようとしています。Nutch で OpenNLP や LingPipe などを使用して文を分割する場合、文検出コードをどこにプラグインすればよいですか? 解析段階ですか、それとも索引付け段階ですか?
両方の場所にいくつかの変更が必要です。
ナット パーサーは、クロールされたコンテンツから書式設定を切り落とします。したがって、コンテンツがナット セグメントに格納されると、改行はなくなります。その部分を修正する必要があります。
デフォルトでは、nutch (これを行う solr) は、索引付けのために文ではなく単語を考慮します。だからあなたもそこをのぞく必要があります。