問題タブ [cluster-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cluster-analysis - トピックに基づいて短いメッセージ [ツイート] をクラスター化するにはどうすればよいですか? 【トピックベースクラスタリング】
トピックに基づいて短いメッセージ/ツイートのクラスターを作成するアプリケーションを計画しています。スポーツ [NBA、NFL、クリケット、サッカー]、エンターテイメント [映画、音楽] など、トピックの数は限られています。
これには2つのアプローチが考えられます
- Stackoverflow が行うように、ユーザーに質問にタグを付けるように依頼します。ユーザーは、事前定義されたタグのリストからタグを選択できます。次に、サーバー側で、タグに基づいてそれらをクラスター化します。長所: - シンプルなデザイン。コードの複雑さが軽減されます。短所:- ユーザーの選択肢が制限されます。クラスタは動的ではありません。新しいイベントが発生した場合、事前定義されたタグはそれを見逃します。
- メッセージを取得し、[辞書で事前定義された] ストップワードを削除し、ステミングされたメッセージに何らかのクラスタリング アルゴリズムを適用してクラスターを作成し、その人気度に応じてクラスターを表示します。クラスターは人気が続くまで表示されます [多くのメッセージ/分]。新しいメッセージはスキミングされ、対応するクラスターに割り当てられます。長所:- イベント/事故の人気に基づく動的クラスタリング。短所:- 複雑さが増します。より多くのサーバー リソースが必要です。
この問題に対する他のアプローチがあるかどうかを知りたいです。または、上記の方法を改善する方法はありますか?
また、いくつかの優れたクラスタリング アルゴリズムを提案します。この状況には、「K-Nearest Clustering」アルゴリズムが適していると思います。
algorithm - 入力として距離行列を使用したクラスタリング[評価]アルゴリズム
距離行列を入力として使用できるクラスタリングアルゴリズムを誰かが提案できますか?または、距離行列にも基づいてクラスタリングの「良さ」を評価できるアルゴリズムですか?
現在、クラスカルのアルゴリズム(http://en.wikipedia.org/wiki/Kruskal%27s_algorithm)の変更を使用して、データを2つのクラスターに分割しています。しかし、問題があります。データに個別のクラスターがない場合でも、アルゴリズムは2つのクラスターを作成し、1つのクラスターには1つの要素が含まれ、もう1つのクラスターには残りのすべてが含まれます。この場合、すべての要素を含む1つのクラスターと、空の別のクラスターが必要です。
このタイプのクラスタリングを実行できるアルゴリズムはありますか?
クラスタリングがどの程度うまく行われたか、またはデータにクラスターがいくつあるかをさらに正確に推定できるアルゴリズムはありますか?
アルゴリズムは、入力として距離(類似度)行列でのみ機能する必要があります。
matlab - MATLABでclusterdataを使用しているときにメモリ不足エラーが発生しました
マトリックス(サイズ:20057x2)をクラスター化しようとしています。:
しかし、私はこのエラーを受け取ります:
誰かが私を助けることができますか。私は4GBのRAMを持っていますが、問題はどこか別のものだと思います。
algorithm - どのクラスターノードをアクティブにする必要がありますか?
いくつかのクラスターといくつかのUNIXネットワークデーモンがあります。このデーモンは各クラスターノードで開始されますが、アクティブにできるのは1つだけです。
アクティブなデーモンが中断すると(ノードのプログラムが中断するかどうかに関係なく)、他のノードがアクティブになる必要があります。
考えられるアルゴリズムはほとんど考えられませんが、これについてはすでに研究が行われているものと、すぐに使えるアルゴリズムがあると思いますか?私は正しいですか?答えを教えてもらえますか?
ありがとう。
c# - 座標のセットが同じ領域内にあるかどうかの判別
私が座標と言うとき、私は地球の緯度と経度の座標を意味します。一連の座標が同じエリア内にあるかどうかを確認したいと思います(私のカットオフは200マイルです)。私は「クラスターアロリズム」をグーグルで検索してきましたが、どちらが最適かわかりません。
ありがとう
algorithm - どのクラスタリング手法がどの種類のデータに適していますか?
私が知りたいのですが
- K-means は、どのタイプのデータのクラスタリングに最適ですか?
- k-means が失敗するのはいつですか? k-means で正確な答えが得られないのは、どのタイプのデータセットですか?
- COBWEB は、どのタイプのデータのクラスタリングに最適ですか?
- COBWEB が失敗するのはいつですか? COBWEB で正確な答えが得られないのは、どのタイプのデータ セットですか?
python - Pythonのデータのマトリックスの上に階層的クラスタリングの結果をプロットする
Pythonで、クラスタリングを反映するように適切に並べ替えられた、値のマトリックスの真上に樹状図をプロットするにはどうすればよいですか?例は次の図です。
https://publishing-cdn.elifesciences.org/07103/elife-07103-fig6-figsupp1-v2.jpg
scipy.cluster.dendrogramを使用して樹状図を作成し、データのマトリックスに対して階層的クラスタリングを実行します。次に、特定のしきい値で樹状図を切断することによって引き起こされるクラスタリングを反映するように行が並べ替えられたマトリックスとしてデータをプロットし、マトリックスの横に樹状図をプロットするにはどうすればよいですか?樹状図をscipyでプロットする方法は知っていますが、データの強度マトリックスをその横にある右側のスケールバーでプロットする方法はわかりません。
これに関する助けをいただければ幸いです。
python - Python の scipy/numpy で 2D 行列の z スコアを計算する
Python で行列の z スコアを計算するにはどうすればよいですか?
次の配列があるとします。
そして、各行の z スコアを計算したいと考えています。私が思いついた解決策は次のとおりです。
zs は scipy.stats.stats にあります。これを行うためのより良い組み込みのベクトル化された方法はありますか?
また、ユークリッド距離またはセクリッド距離を使用した階層的クラスタリングを使用する前に、数値を z スコアすることは常に良いことですか? 相対的な長所/短所について誰でも議論できますか?
ありがとう。
python - Googleマップに多数のマップマーカーをプロットするためにRツリーを使用する方法
SO と複数の記事を検索した後、問題の解決策が見つかりませんでした。
私が達成しようとしているのは、Google マップに 20,000 個のマーカーをロードすることです。
R ツリーは良いアプローチのように思えますが、マップの可視部分内のポイントを検索する場合にのみ役立ちます。マップをズームアウトすると、すべてのポイントが返され、ブラウザがクラッシュします。
マップのドラッグと、ドラッグの最後にクエリを再実行することにも問題があります。
R-Tree を使用して上記のすべてを達成する方法を知りたいです。
r - hclustから「サブツリー」を取得する方法はありますか?(R)
hclustオブジェクトから「サブツリー」を作成したいと思います。
たとえば、次のオブジェクトがあるとします。
今、私はそれから次のサブツリーを抽出したいと思います:
どうすればアクセスできますか?
(cutreeはサブツリーのオブジェクトを取得できますが、実際のhclustオブジェクトは作成できません)
助けてくれてありがとう、
タル