0

IE - 最も頻度の低い、または有益なバイグラム頻度カウントを組み合わせます。

EG - シーケンスの文字ペアの頻度カウントがある場合、同様の機能をマージする良い方法は何ですか? (例: "KR" と "RK" を 1 つの機能にする、またはカウントが 0 のすべてのペアを組み合わせる..)。

scikit Learn には「病棟の凝集クラスタリング」と呼ばれるものがあることは知っていますが、それは視覚データ/ピクセルを対象としているようで、テキスト データ (タンパク質配列とバイオインフォマティクス) に興味があります。機能を連結するためのより直接的な方法がある場合は、クラスタリングを避けたいと思います。(私にはバックグラウンドがなく、以前にクラスタリングを行ったことがなく、特徴の分析は私たちにとって重要です)。ありがとう!

4

0 に答える 0