さまざまな前置詞 (エージェント、インストゥルメンタル、時間、場所など) の分布に基づいて、自然に発生する名詞のクラスを見つける必要があります。k-means クラスタリングを使用してみましたが、あまり役に立たず、うまく機能しませんでした。探していたクラスに多くの重複がありました (おそらく、クラスの非球形と k-means でのランダムな初期化のため) )。
現在、DBSCAN の使用に取り組んでいますが、このクラスタリング アルゴリズムのイプシロン値とミニポイント値を理解するのに苦労しています。ランダムな値を使用できますか、それとも計算する必要がありますか? 誰でも助けてくれますか。特にイプシロンでは、少なくとも必要に応じて計算する方法。