私は、後でLuceneを統合することを計画しているテキストマイニングプロジェクトに取り組んでいます。私の現在の実装では、トークン化、n-gram機能の構築などの一般的なNLPタスクにopenNLPを使用しています。Luceneがこれらの機能をサポートできるかどうか知りたいのですが。Luceneは、openNLPと比較した場合、大規模なドキュメントコレクションで高い効率を達成できますか?
質問する
390 次
1 に答える
1
- Lucene は、トークン化と n-gram 分析を提供します。
- Lucene ドキュメントに 1 つ以上のカテゴリがある場合、ヒットが分類される各カテゴリの数をカウントし、クエリのカテゴリとしてヒット数が最も多いカテゴリを授与することで、Hyperpipes 分類子を実装できます。(実装できる分類子は他にもあると思います。ハイパーパイプは、検索エンジンをバックエンドとして使用することから、洗い流されてしまうので、たまたま頭に浮かびました。)
- Lucene はライブラリであるため、GUI、コマンドライン プログラム、またはサービス (デーモン) から使用できます。
于 2012-12-17T22:20:31.007 に答える