“cluster-analysis”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

11943 参照

r - Rでの相関クラスタリング

使いたいのですが、始めるのに良い場所だcorrelation clusteringと思います。R

データをR、大きなスパースベクトルのセットとして、または事前に計算された非類似度行列を含むテーブルとして提示できます。

私の質問は次のとおりです。

これを使用するwithに変換する既存のR関数はありますか？hierarchical clusteragnescorrelation clustering
（確かに単純な）correlation clustering関数を手動で実装する必要がありますか？そうであれば、どのようにそれをうまく機能させることができagnesますか？

r cluster-analysis nlp

2009-09-23T23:03:42.163

0 投票する

2 に答える

2084 参照

python - ズームレベルに基づく座標のサーバー側クラスター

この答えのおかげで、私は自分の問題に対する一時的な解決策を思いつくことができました。

ただし、毎日増加する6000ポイントのリストでは、ますます遅くなっています。

サードパーティのサービス*を利用できないため、独自の解決策を考え出す必要があります。

これが私の要件です：

座標のクラスタリングは、マップの任意のズームレベルで機能する必要があります。
すべてのクラスターをキャッシュする必要があります
理想的には、新しいポイントが追加された場合、すべてのポイントでクラスター化（距離の計算）する必要はありません。

これまで、マップの4つの境界を返し、マップの表示可能なセクション内にある座標を返すクアッドツリーを実装しました。

私が必要としているのは、これが簡単ではないことを知っています。DB（postgres）からポイントのクラスターを返すことです。

python google-maps postgresql google-maps-markers cluster-analysis

2009-09-28T15:28:20.973

0 投票する

2 に答える

536 参照

string - 一般的なサブパターンに従って短く均質な文字列（DNA）をクラスター化し、クラスのコンセンサスを抽出します

タスク：
共通のサブシーケンスパターンを共有するクラスで短いDNAフラグメントの大きなプールをクラスター化し、各クラスのコンセンサスシーケンスを見つけます。

プール：およそ 300シーケンスフラグメント
フラグメントあたり8〜20文字
4つの可能な文字：a、g、t、c
各フラグメントは、次の3つの領域で構成されています。
1. 5つの一般的な文字
2. gとcの8つ以上の位置
3. 5つの一般的な文字
  （正規表現として[gcta]{5}[gc]{8,}[gcta]{5}）

計画：
マルチプルアラインメント（つまり、withClustalW2）を実行して、領域2の共通シーケンスとそのコンセンサスシーケンスを共有するクラスを見つけます。

質問：

私のフラグメントは短すぎますか？サイズを大きくするのに役立ちますか？
領域2は、そのシーケンスでパターンを表示するには、許可されている文字タイプが2つしかないため、均質すぎますか？
このタスクのためにどの代替方法またはツールを提案できますか？

よろしくお願いします、

サイモン

string cluster-analysis bioinformatics dna-sequence

2009-10-02T12:50:26.867

0 投票する

1 に答える

667 参照

image - データをクラスタリングするための画像の類似関数を書く

ユークリッド空間のデータポイントの類似関数を作成する方法を知っています (負の最小二乗誤差を取ることにより)。画像のクラスタリングアルゴリズムをチェックしたい場合、画像のデータポイントの類似関数をどのように作成すればよいでしょうか? RGB値または何に基づいていますか? そしてどうやって？

image cluster-analysis

2009-10-03T22:19:39.930

0 投票する

5 に答える

2800 参照

私は、さまざまなハイパーテキストドキュメントの用語-頻度-逆-ドキュメント-頻度を表す多数の非常に大きなスパースベクトルをクラスタリングするいくつかのテストを行っています。データセットの割合を考慮して、このデータをクラスタリングするためにどのアルゴリズムを提案しますか? ベクトルの次元は > 3·10 ⁵になり、ベクトルの数は約 10 ⁹になります。私は dbscan と optics アルゴリズムを見てきました。クラスタの数は優先順位が不明です。そして、このような高次元の空間インデックスは複雑に見えます。

algorithm cluster-analysis

2009-10-08T18:51:10.127

0 投票する

8 に答える

89407 参照

python - Python k-means アルゴリズム

座標のデータベースをクラスター化してキャッシュする例を含む、k-means アルゴリズムの Python 実装を探しています。

python algorithm cluster-analysis k-means

2009-10-09T19:16:13.337

0 投票する

2 に答える

4604 参照

cluster-analysis - ファジー c-means アルゴリズムの単純で実用的な例

動的キーストローク認証をテーマに修士論文を書いています。進行中の研究をサポートするために、特徴抽出と特徴マッチングのさまざまな方法をテストするコードを書いています。

私の現在の単純なアプローチは、参照パスワードのキーコードが現在入力されているキーコードと一致するかどうかを確認し、キーを押す時間 (滞留) とキーからキーへの時間 (飛行) が参照時間と同じかどうかを確認するだけです +/- 100ms (許容誤差）。もちろん、これは非常に限定的であり、ある種のファジー c-means パターンマッチングで拡張したいと考えています。

各キーの機能は次のようになります: キーコード、ドウェルタイム、フライトタイム (最初のフライトタイムは常に 0)。

明らかに、キーコードはまったく同じでなければならないため、ファジーアルゴリズムから取り出すことができます。このコンテキストでは、ファジー c-means の実用的な実装はどのようになりますか?

cluster-analysis fuzzy-logic fuzzy-c-means

2009-10-16T21:16:57.420

0 投票する

8 に答える

5088 参照

algorithm - サンプルサイズが大きい場合に文字列の類似度を計算する効率的な方法は?

10,000 個の電子メールアドレスのリストがあり、このリスト内の最も近い "隣人" を見つけたいとします。これは、リスト内の他の電子メールアドレスに疑わしいほど近い電子メールアドレスとして定義されます。

2 つの文字列間のレーベンシュタイン距離を計算する方法を認識しています ( this questionのおかげで)。これにより、ある文字列を別の文字列に変換するために必要な操作の数のスコアが得られます。

「別の電子メールアドレスに疑わしいほど近い」を、レーベンシュタインスコアが N 未満の 2 つの文字列として定義するとします。

可能なすべての文字列をリスト内の他のすべての文字列と比較する以外に、スコアがこのしきい値よりも低い文字列のペアを見つけるより効率的な方法はありますか? 言い換えれば、この種の問題はよりも早く解決できるO(n^2)でしょうか?

レーベンシュタインスコアは、この問題のアルゴリズムとして不適切な選択ですか?

algorithm string cluster-analysis complexity-theory edit-distance

2009-10-22T20:24:19.883

0 投票する

2 に答える

399 参照

cluster-analysis - よく知られている分類ライブラリはありますか？

分類せずにインターネットからデータをクロールしています。

おすすめのライブラリはありますか？

編集

私は他のウェブサイトから仕事をクロールしています、そして私はそれらを異なる産業にグループ化する必要があります。

cluster-analysis

2009-10-29T14:59:29.037

0 投票する

2 に答える

6628 参照

c++ - OpenCV K-Means（kmeans2）

私はOpencvのK-means実装を使用して、8次元ベクトルの大規模なセットをクラスター化しています。それらは正常にクラスタリングされますが、クラスタリングプロセスによって作成されたプロトタイプを確認する方法が見つかりません。これも可能ですか？OpenCVは、クラスターインデックス（またはラベル）へのアクセスのみを提供しているようです。

そうでなければ、私自身の実装を作成する時が来たと思います！

c++opencv cluster-analysis k-means

2009-10-30T16:29:45.090

問題タブ [cluster-analysis]

r - Rでの相関クラスタリング

python - ズームレベルに基づく座標のサーバー側クラスター

string - 一般的なサブパターンに従って短く均質な文字列（DNA）をクラスター化し、クラスのコンセンサスを抽出します

image - データをクラスタリングするための画像の類似関数を書く

algorithm - 巨大なベクトル空間のクラスタリング

python - Python k-means アルゴリズム

cluster-analysis - ファジー c-means アルゴリズムの単純で実用的な例

algorithm - サンプルサイズが大きい場合に文字列の類似度を計算する効率的な方法は?

cluster-analysis - よく知られている分類ライブラリはありますか？

c++ - OpenCV K-Means（kmeans2）

問題タブ [cluster-analysis]

Reference