問題タブ [cluster-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
matlab - MATLAB でデータポイントのグループを囲む多角形を描画する
それぞれが特定のクラスター (グループ) に属する一連のデータポイントがあります。これらの各クラスターの周りに多角形を描画する必要があります。誰もそれを行う方法を知っていますか?
ポリゴンを描画するために実際のデータポイントを使用するかどうかは関係ありません。ポリゴンでラップするだけです。
algorithm - 都市のように分布するランダム ポイントを生成しますか?
たとえばオハイオ州の町や都市のような分布で、たとえば 1000 個のランダム ポイントを生成するにはどうすればよいでしょうか。
残念ながら、「都市のように分散」を正確に定義することはできません。均一に分布した中心 + 小さなガウス雲は簡単ですがアドホックです。
追加: 与えられたポイントのセットに一致するように変更できるクラスタリング パラメータを持つ 2 次元分布のファミリが必要ですか?
python - Python で個別のリストからデータを抽出して統合する
私はこのコードを持っています:
1,...,7 という 7 つのグループ名があります。「タグ」リストの各行は、「T」リストの行に対応します。「T」の値は、たとえば、「タグ」リストの最初の行がグループ 3 に属し、「タグ」リストの 2 番目の行がグループ 3 に属していることを示します。グループ 5 など。これらは基本的に、各タグが属するクラスターです。たとえば、辞書データ型などの個別のグループ/クラスターを持つように、それらを抽出したいと思います。重要なことは、実行ごとにクラスターの数が変化することです。したがって、この問題のために、さまざまな数のクラスターで機能する一般的なコードが必要です。本当に助けが必要です ありがとう。
tomcat - Tomcat サーバーの要件を見積もる方法は?
Tomcat で動作する新しい webapp が作成されました。これまでのところ、1 日を通して使用しているのは 1 人のクライアントだけです。1 日あたり約 180 のユニークなログインを実行します。本当に多くのIMOではありません。今では、50,000 のクライアントに展開したいと考えている新しいクライアントに販売することができました。同時にログインするのは何人か - わかりません。しかし、割り当て、作成、構成、および保守というすべてを行う必要があります。OK - 最後は簡単です (errrr)。
アプリケーションは、Gentoo 上の Tomcat 5.5 で実行されます (Tomcat 6 にアップグレードすることを考えています)。MSSQL と mySQL が背後にあります。よりエンタープライズ対応のアプリケーションの方が適していることは理解していますが、現時点ではそれは選択肢ではありません。これまでやったことがないので、少し迷っています。このクライアントの機器要件を見積もる方法について誰かアドバイスできますか? Tomcat にはクラスタリング機能があるので、それを実行できます。MS SQL - 彼らにも何かがあると確信しています。私はそれを LVS の背後に置くことを考えています (現在、他の目的にも使用しています)。
これらの詳細を扱う人々からの助けは大歓迎です!
python - Python scipy/numpy の相関に関する階層的クラスタリング?
scipy
/の相関行列に対して階層的クラスタリングを実行するにはどうすればよいnumpy
ですか? 100 行 x 9 列のマトリックスがあり、9 つの条件にわたる各エントリの相関によって階層的にクラスタリングしたいと考えています。クラスタリングの距離として 1 ピアソン相関を使用したいと思います。numpy
100 x 9 の行列を含む配列があると仮定するとX
、どうすればこれを行うことができますか?
この例に基づいて、hcluster を使用してみました。
ただし、pdist
それはユークリッド距離であるため、私が望むものではありません。何か案は?
ありがとう。
cluster-analysis - どの機械学習ライブラリを使用するか
理想的には、次の機能を備えたライブラリを探しています。
- 多次元データの階層的クラスタリングを実装します (理想的には類似性または距離行列で)
- サポートベクターマシンを実装
- C++にあります
- ある程度文書化されています(これが最も難しいようです)
私は C++ 言語に最も慣れているため、これを C++ にしたいと考えていますが、ライブラリが価値がある場合は、他の言語も使用します。グーグルでいくつか見つけましたが、すべてを試す時間はあまりないので、他の人が経験したことを聞きたいです. お勧めのライブラリの経験がある場合のみ回答してください。
PS: クラスタリングと SVM に別のライブラリを使用することもできます。
python - GeoDjango:ポイントのクラスターを生成するすぐに使える方法はありますか?
GeoDjango を使用して、Python の一連のポイントでクラスターを計算しようとしています。
問題: ポイントのセットが与えられた場合、それらのポイントのクラスターのセットを出力します。(単純化するために、事前にクラスター数/クラスターサイズ/距離を指定しても問題ありません)
クラスタリングを行うためのソリューションが Web 上にいくつかあるため、これはよく知られている問題です。GeoDjango はこの種の問題をすぐに処理できると思っていましたが、その方法は明確ではありません。GeoDjango のドキュメント、Google、および他のいくつかの場所を検索しましたが、何も見つかりませんでした。
独自のクラスタリング ソリューションを展開する前に、GEOS または GeoDjango 内の別のパッケージを使用してこれを行う簡単な方法があるかどうかを確認したいと思いました。
cluster-analysis - トピックに基づいて短いメッセージ [ツイート] をクラスター化するにはどうすればよいですか? 【トピックベースクラスタリング】
トピックに基づいて短いメッセージ/ツイートのクラスターを作成するアプリケーションを計画しています。スポーツ [NBA、NFL、クリケット、サッカー]、エンターテイメント [映画、音楽] など、トピックの数は限られています。
これには2つのアプローチが考えられます
- Stackoverflow が行うように、ユーザーに質問にタグを付けるように依頼します。ユーザーは、事前定義されたタグのリストからタグを選択できます。次に、サーバー側で、タグに基づいてそれらをクラスター化します。長所: - シンプルなデザイン。コードの複雑さが軽減されます。短所:- ユーザーの選択肢が制限されます。クラスタは動的ではありません。新しいイベントが発生した場合、事前定義されたタグはそれを見逃します。
- メッセージを取得し、[辞書で事前定義された] ストップワードを削除し、ステミングされたメッセージに何らかのクラスタリング アルゴリズムを適用してクラスターを作成し、その人気度に応じてクラスターを表示します。クラスターは人気が続くまで表示されます [多くのメッセージ/分]。新しいメッセージはスキミングされ、対応するクラスターに割り当てられます。長所:- イベント/事故の人気に基づく動的クラスタリング。短所:- 複雑さが増します。より多くのサーバー リソースが必要です。
この問題に対する他のアプローチがあるかどうかを知りたいです。または、上記の方法を改善する方法はありますか?
また、いくつかの優れたクラスタリング アルゴリズムを提案します。この状況には、「K-Nearest Clustering」アルゴリズムが適していると思います。
algorithm - 入力として距離行列を使用したクラスタリング[評価]アルゴリズム
距離行列を入力として使用できるクラスタリングアルゴリズムを誰かが提案できますか?または、距離行列にも基づいてクラスタリングの「良さ」を評価できるアルゴリズムですか?
現在、クラスカルのアルゴリズム(http://en.wikipedia.org/wiki/Kruskal%27s_algorithm)の変更を使用して、データを2つのクラスターに分割しています。しかし、問題があります。データに個別のクラスターがない場合でも、アルゴリズムは2つのクラスターを作成し、1つのクラスターには1つの要素が含まれ、もう1つのクラスターには残りのすべてが含まれます。この場合、すべての要素を含む1つのクラスターと、空の別のクラスターが必要です。
このタイプのクラスタリングを実行できるアルゴリズムはありますか?
クラスタリングがどの程度うまく行われたか、またはデータにクラスターがいくつあるかをさらに正確に推定できるアルゴリズムはありますか?
アルゴリズムは、入力として距離(類似度)行列でのみ機能する必要があります。
matlab - MATLABでclusterdataを使用しているときにメモリ不足エラーが発生しました
マトリックス(サイズ:20057x2)をクラスター化しようとしています。:
しかし、私はこのエラーを受け取ります:
誰かが私を助けることができますか。私は4GBのRAMを持っていますが、問題はどこか別のものだと思います。