問題タブ [cluster-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Rでの相関クラスタリング
使いたいのですが、始めるのに良い場所だcorrelation clusteringと思います。R
データをR、大きなスパースベクトルのセットとして、または事前に計算された非類似度行列を含むテーブルとして提示できます。
私の質問は次のとおりです。
- これを使用するwithに変換する既存の
R関数はありますか?hierarchical clusteragnescorrelation clustering - (確かに単純な)
correlation clustering関数を手動で実装する必要がありますか?そうであれば、どのようにそれをうまく機能させることができagnesますか?
python - ズームレベルに基づく座標のサーバー側クラスター
この答えのおかげで、私は自分の問題に対する一時的な解決策を思いつくことができました。
ただし、毎日増加する6000ポイントのリストでは、ますます遅くなっています。
サードパーティのサービス*を利用できないため、独自の解決策を考え出す必要があります。
これが私の要件です:
座標のクラスタリングは、マップの任意のズームレベルで機能する必要があります。
すべてのクラスターをキャッシュする必要があります
理想的には、新しいポイントが追加された場合、すべてのポイントでクラスター化(距離の計算)する必要はありません。
これまで、マップの4つの境界を返し、マップの表示可能なセクション内にある座標を返すクアッドツリーを実装しました。
私が必要としているのは、これが簡単ではないことを知っています。DB(postgres)からポイントのクラスターを返すことです。
string - 一般的なサブパターンに従って短く均質な文字列(DNA)をクラスター化し、クラスのコンセンサスを抽出します
タスク:
共通のサブシーケンスパターンを共有するクラスで短いDNAフラグメントの大きなプールをクラスター化し、各クラスのコンセンサスシーケンスを見つけます。
- プール:およそ 300シーケンスフラグメント
- フラグメントあたり8〜20文字
- 4つの可能な文字:a、g、t、c
- 各フラグメントは、次の3つの領域で構成されています。
- 5つの一般的な文字
- gとcの8つ以上の位置
- 5つの一般的な文字
(正規表現として[gcta]{5}[gc]{8,}[gcta]{5})
計画:
マルチプルアラインメント(つまり、withClustalW2)を実行して、領域2の共通シーケンスとそのコンセンサスシーケンスを共有するクラスを見つけます。
質問:
- 私のフラグメントは短すぎますか?サイズを大きくするのに役立ちますか?
- 領域2は、そのシーケンスでパターンを表示するには、許可されている文字タイプが2つしかないため、均質すぎますか?
- このタスクのためにどの代替方法またはツールを提案できますか?
よろしくお願いします、
サイモン
image - データをクラスタリングするための画像の類似関数を書く
ユークリッド空間のデータ ポイントの類似関数を作成する方法を知っています (負の最小二乗誤差を取ることにより)。画像のクラスタリング アルゴリズムをチェックしたい場合、画像のデータ ポイントの類似関数をどのように作成すればよいでしょうか? RGB値または何に基づいていますか? そしてどうやって?
algorithm - 巨大なベクトル空間のクラスタリング
私は、さまざまなハイパーテキスト ドキュメントの用語-頻度-逆-ドキュメント-頻度を表す多数の非常に大きなスパース ベクトルをクラスタリングするいくつかのテストを行っています。データセットの割合を考慮して、このデータをクラスタリングするためにどのアルゴリズムを提案しますか? ベクトルの次元は > 3·10 5になり、ベクトルの数は約 10 9になります。私は dbscan と optics アルゴリズムを見てきました。クラスタの数は優先順位が不明です。そして、このような高次元の空間インデックスは複雑に見えます。
python - Python k-means アルゴリズム
座標のデータベースをクラスター化してキャッシュする例を含む、k-means アルゴリズムの Python 実装を探しています。
cluster-analysis - ファジー c-means アルゴリズムの単純で実用的な例
動的キーストローク認証をテーマに修士論文を書いています。進行中の研究をサポートするために、特徴抽出と特徴マッチングのさまざまな方法をテストするコードを書いています。
私の現在の単純なアプローチは、参照パスワードのキーコードが現在入力されているキーコードと一致するかどうかを確認し、キーを押す時間 (滞留) とキーからキーへの時間 (飛行) が参照時間と同じかどうかを確認するだけです +/- 100ms (許容誤差)。もちろん、これは非常に限定的であり、ある種のファジー c-means パターン マッチングで拡張したいと考えています。
各キーの機能は次のようになります: キーコード、ドウェルタイム、フライトタイム (最初のフライトタイムは常に 0)。
明らかに、キーコードはまったく同じでなければならないため、ファジー アルゴリズムから取り出すことができます。このコンテキストでは、ファジー c-means の実用的な実装はどのようになりますか?
algorithm - サンプルサイズが大きい場合に文字列の類似度を計算する効率的な方法は?
10,000 個の電子メール アドレスのリストがあり、このリスト内の最も近い "隣人" を見つけたいとします。これは、リスト内の他の電子メール アドレスに疑わしいほど近い電子メール アドレスとして定義されます。
2 つの文字列間のレーベンシュタイン距離を計算する方法を認識しています ( this questionのおかげで)。これにより、ある文字列を別の文字列に変換するために必要な操作の数のスコアが得られます。
「別の電子メールアドレスに疑わしいほど近い」を、レーベンシュタインスコアが N 未満の 2 つの文字列として定義するとします。
可能なすべての文字列をリスト内の他のすべての文字列と比較する以外に、スコアがこのしきい値よりも低い文字列のペアを見つけるより効率的な方法はありますか? 言い換えれば、この種の問題は よりも早く解決できるO(n^2)でしょうか?
レーベンシュタイン スコアは、この問題のアルゴリズムとして不適切な選択ですか?
cluster-analysis - よく知られている分類ライブラリはありますか?
分類せずにインターネットからデータをクロールしています。
おすすめのライブラリはありますか?
編集
私は他のウェブサイトから仕事をクロールしています、そして私はそれらを異なる産業にグループ化する必要があります。
c++ - OpenCV K-Means(kmeans2)
私はOpencvのK-means実装を使用して、8次元ベクトルの大規模なセットをクラスター化しています。それらは正常にクラスタリングされますが、クラスタリングプロセスによって作成されたプロトタイプを確認する方法が見つかりません。これも可能ですか?OpenCVは、クラスターインデックス(またはラベル)へのアクセスのみを提供しているようです。
そうでなければ、私自身の実装を作成する時が来たと思います!