問題タブ [cluster-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - JavaWebアプリ用にAmazonEC2でシンプルでスケーラブルなクラスターを構築するためのベストプラクティス
Java Webアプリを構築し、 EC2にデプロイしたいと思います。これはJavaで記述され、MySQLを使用します。私は実際の展開プロセスと構成に関するいくつかの指針を得ることを望んでいました。特に、次のトピックに興味があります。
- マシンイメージ(DIYと既製)
- mysqlのレプリケーションとS3へのバックアップ
- 中断することなくアプリをEC2にデプロイおよび再デプロイする方法
- ファイアウォール?
- 負荷分散と自動スケーリング
- cloudtools(または代替ツール)
c++ - VisualC++でのCクラスターライブラリの使用
そうです、私はC ++でCライブラリを使用しようとしていますが、外部の「C」の下にヘッダーインクルードを宣言し、コンパイルをフラグとして「デフォルト」に設定する場合になると思う前に、実際にこれを実行したことはありません。 mまだリンカーエラーが発生し、ヘッダーファイルをDLLとしてコンパイルする必要があると考えています。よくわかりません。
問題なのは図書館なのか、それとも私なのか。cluster-1.47 \ srcにはいくつかのmakeファイルがありますが、それらが「cluster.h」にどのように関連しているか、または関連しているかどうかはわかりません。Visual Studio 2008プロジェクトをアップロードして、誰もがざっと見られるようにしました。しばらくの間、壁に頭をぶつけてきたので、助けていただければ幸いです。
ありがとう
ステファン
algorithm - 最も近いベクトルを見つけるためのアルゴリズム
ベクトルのセットがあります。そのセット内のベクトルについて、このベクトルに最も近いサブセットを見つけるのが好きです。これを行うことができるアルゴリズムは何ですか。
cluster-analysis - コサイン類似性測定:複数の結果
私のプログラムでは、クラスタリングを使用して類似アイテムのサブセットを生成し、クラスターの類似度を判断する方法としてコサイン類似度を使用しています。たとえば、ユーザー1に3つのクラスターがあり、ユーザー2に3つのクラスターがある場合、すべてのクラスターが相互に比較されます。コサイン類似度を使用した9つの結果が生成されます。たとえば、[0.3、0.1、0.4、0.12、0.0、0.6、0.8、 1.0、0.22]
私の問題は、これらの結果に基づいて、これらの値を具体的な結果に変換して、これら2人のユーザーがどれほど類似しているかを示すにはどうすればよいかということです。
私が作成した簡単な方法は、すべての値を比較の数で割り、それらを合計して1つの値を取得することでしたが、これは非常に単純なアプローチです。
ありがとう、
なので
私が達成しようとしていることの基本的な説明は、ソーシャルブックマークWebサービスDelicious.comから、ブックマークとタグから、2人のユーザーがどれほど似ているかを判断できるかどうかです。
これまで、ユーザーのブックマークのタグと各タグの共起からクラスターを作成しました。たとえば、1つのクラスターは次のようになります。
また、別のユーザーが、タグから作成された同様のクラスターを持っている場合があります。
この数字は、保存されたブックマークで、この例では「fruit」というタグとタグが共起した回数を表します。
コサイン類似度を使用してこれらのクラスターを比較し、それらがどの程度類似しているかを判断しました。最初の質問から、多くのクラスター比較結果(すべてのユーザークラスターを別のユーザークラスターと比較)を使用して、結果を集計して意味のある結果。
コサイン類似性を不適切に使用している可能性が非常に高いですが、
c# - クライアントサーバーアーキテクチャの質問
クライアントサーバーシステムで作業していますが、複数のクライアントが同時にアクションを実行しているという問題が発生しています。これは、コードのクリティカルセクションをロックすることで解決できます。これにより、最初のクライアントが2番目のクライアントがコードブロックに入る前にアクションを完了することが保証されます。私の質問はこれです:私たちのサーバーもクラスター化されているので、サーバー自体の複数のインスタンスが存在する可能性があり、以前と同じ問題が再現されます。この問題をどのように解決できますか?ありがとう!
問題を拡張するには:最初のユーザーは、アクションが有効かどうかを確認し、yes応答を取得しています。2番目のユーザーは、アクションが有効かどうかを確認し、最初のユーザーがアクションを完了する前にyes応答を受け取ります。ただし、最初のユーザーのアクションにより、2番目のユーザーのアクションが無効になるはずです。問題は、チェックが各ユーザーに対してほぼ同時に行われることです。
matlab - MATLAB:図心を描く
私の主な質問は特徴の重心が与えられていますが、MATLABでそれを描画するにはどうすればよいですか?
より詳細には、ブロックを取得し、各ブロックの次元特徴ベクトルを計算するNxNx3
画像(RGB画像)があります。これらの特徴ベクトルを行列に格納し、その上で関数を実行して、行列の重心を取得します。ここで、はクラスターの数であり、は各ブロックの特徴の数です。4x4
6
Mx6
kmeans
kx6
k
6
アルゴリズムが希望どおりに実行されているかどうかを視覚化するために、これらの中央のクラスターを画像に描画するにはどうすればよいですか?または、画像の重心を視覚化する方法について他の方法や提案がある場合は、大いに感謝します。
graph - クラスタリング問題のグラフ理論言語への翻訳
各セルに整数の重みが割り当てられた長方形の平面グリッドがあります。平均よりも重みが高い 3 ~ 6 個の隣接セルのクラスターを識別するアルゴリズムを探しています。これらのブロブは、ほぼ円形である必要があります。
私の場合、クラスターを含まないセルの平均重みは約 6 であり、クラスターを含むセルの平均重みは約 6+4 です。つまり、「背景の重み」は約 6 です。重みはポアソン統計で変動します。
小さなバックグラウンドでは貪欲またはシードされたアルゴリズムはかなりうまく機能しますが、クラスター セルの重みがバックグラウンドで変動に近い場合、つまり何もない場合でもクラスターを見つける傾向がある場合、これは機能しません。また、グリッドが大きく (1000x1000 のようなもの)、非常に頻繁に (10^9 回) 実行する予定であるため、考えられるすべてのセットアップをループするブルート フォース検索を実行することはできません。グラフ理論でこれに取り組む方法があるかもしれないという印象があります。頂点カバーとクリークについて聞いたことがありますが、私の問題を彼らの言語に最もよく翻訳する方法がわかりません。グラフ理論には入力の統計的性質に問題がある可能性があることは知っていますが、すべてのクラスターを識別できない場合でも、そこからどのようなアルゴリズムが見つかるかを知りたいと思います。
クリッピングの例を次に示します。フレーム領域にはセルあたり平均 10 個のエントリがあり、他のすべてのセルには平均 6 個のエントリがあります。もちろん、グリッドはさらに拡張されます。
java - 同じクラスターで実行される Web アプリケーション間でトランザクションを共有する
次のアーキテクチャがあります。
Base.war
自己完結型のSpring-Hibernateアプリケーションになります- すべてのアプリケーションは Glassfish で実行され、クラスター化される場合があります
E1.war
の上に座ってBase.war
、その機能を拡張します- さらに拡張機能 (
E2.war
、E3.war
、…) が上にある可能性があります。Base.war
- いずれかの戦争がトランザクションを開始する可能性があり、トランザクションは戦争の間にまたがる可能性があります
- シャットダウンせず
Base.war
に、またはその他のE
x 、 y.war
をアップグレードできるはずですE
.war
spring-hibernate-glassfish 環境でこれに対する解決策はありますか?
python - 多くの単純なネットワーク タスクを分散するためのソリューションですか?
本番環境で大量の小規模/単純な REST Web クエリを実行するための、ある種の分散セットアップを作成したいと考えています。ノードから実行される 5 ~ 10 個の関連するクエリごとに、標準のリレーショナル データベース (PostgreSQL など) に格納する必要がある非常に少量の派生データを生成します。
この種の問題セット用に構築されたプラットフォームは何ですか? その性質、データのサイズ、および量は、Hadoop の考え方と矛盾しているように見えます。また、Condor や Sun Grid Engine など、グリッド ベースのアーキテクチャもいくつかあります。ただし、これらのプラットフォームにエラーからの回復があるかどうかはわかりません (ジョブが成功するかどうかを確認しています)。
私が本当に欲しいのは、データベースの最終結果が更新される、ジョブを追加できる FIFO タイプのキューです。
仕事に最適なツールに関する提案はありますか?
algorithm - このクラスタリングの合計エラーの測定値を計算する方法
これは、k-meansクラスタリングアルゴリズムに関する質問です。以下の点とデータのクラスタリングS1があります。このクラスタリングに関連する合計エラーを計算する方法を誰かに教えてもらえますか?厳密にプログラミングの質問ではないことは知っていますが、アルゴリズムには必要です。答えは4/3だと思いますが、どうやって計算すればいいのかわかりません。誰か助けてもらえますか?