0

日本語のドキュメントをクラスタ化するために、cart2 API を使用しようとしています。このWARNをスローします:

org.carrot2.text.linguistic.DefaultTokenizerFactory: 日本語 (ja) のトークナイザーは利用できません。これにより、日本語コンテンツのクラスタリング品質が低下する可能性があります。

したがって、クラスタリング プロセスは失敗し、すべてのドキュメントは「他のトピック」クラスタに属します。

この問題を解決する助けはありますか?

前もって感謝します。

4

1 に答える 1

0

残念ながら、Carrot 2で利用可能なオープン ソース アルゴリズムは日本語をサポートしていません。この定数は、日本語の将来のサポートの可能性をカバーするために追加されました。

あるいは、カスタマイズされた言語パイプラインを使用して Carrot 2を実行することもできます。Carrot 2 Java API ディストリビューションのUsingCustomLanguageModelサンプル クラスは、その方法を示しています。

于 2015-10-24T20:20:24.970 に答える