日本語のドキュメントをクラスタ化するために、cart2 API を使用しようとしています。このWARNをスローします:
org.carrot2.text.linguistic.DefaultTokenizerFactory: 日本語 (ja) のトークナイザーは利用できません。これにより、日本語コンテンツのクラスタリング品質が低下する可能性があります。
したがって、クラスタリング プロセスは失敗し、すべてのドキュメントは「他のトピック」クラスタに属します。
この問題を解決する助けはありますか?
前もって感謝します。