問題タブ [cluster-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonでのテキストのクラスタリング
私はいくつかのテキストドキュメントをクラスター化する必要があり、さまざまなオプションを研究してきました。LingPipeは(ベクトル空間などへの)事前の変換なしでプレーンテキストをクラスター化できるように見えますが、文字列で機能すると明示的に主張しているのは私が見た唯一のツールです。
テキストを直接クラスター化できるPythonツールはありますか?そうでない場合、これを処理するための最良の方法は何ですか?
cluster-analysis - k-means クラスタリングを使用する場合、k を決定するにはどうすればよいですか?
私はk-means clusteringについて研究してきましたが、明確でないことの 1 つは、k の値をどのように選択するかです。それは単なる試行錯誤の問題ですか、それともそれ以上のことはありますか?
artificial-intelligence - AI 技術を使用したファイル形式のリバース エンジニアリング
これは質問を拡張するためのものです:バイナリ ファイル形式のリバース エンジニアリングを支援するツール
クラスタリングやデータ マイニング技術を使用してファイル形式をリバース エンジニアリングする、公開されているツールはありますか?
たとえば、ツールを使用すると、同じ形式のファイルのコレクションがあり、ツールの出力は一般的な構造になりますか?
indexing - mahout lucene ドキュメント クラスタリング ハウツー?
mahout クラスタリング アルゴリズムを適用するために使用できる lucene インデックスから mahout ベクトルを作成できることを読んでいます。 http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Text
Lucene インデックスのドキュメントに K-means クラスタリング アルゴリズムを適用したいのですが、このアルゴリズム (または階層クラスタリング) を適用して、これらのドキュメントで意味のあるクラスタを抽出する方法が明確ではありません。
このページhttp://cwiki.apache.org/confluence/display/MAHOUT/k-Means は、アルゴリズムが 2 つの入力ディレクトリを受け入れると述べています。1 つはデータ ポイント用、もう 1 つは初期クラスター用です。私のデータポイントはドキュメントですか? これらが私のドキュメント (またはそのベクトル) であることを「宣言」するにはどうすればよいですか?
文法が下手で申し訳ありません
ありがとうございました
matlab - matlabで視覚的にデータを2つのクラスに分割する
各クラスターには x、y (座標) と、そのタイプ (1 クラス 1,2 クラス 2) を知るための値がある 2 つのデータ クラスターがあります。これらのデータをプロットしましたが、これらのクラスを境界 (視覚的に) で分割したいと思います。そのようなことをする機能は何ですか。輪郭を試してみましたが、役に立ちませんでした!
c++ - OpenCVのクラスタリング関数cvKMeans2()-配列内のクラスターセンターのタイプは何ですか?
クラスタリングにOpenCVライブラリの関数cvKMeans2()を使用しています。オプションのパラメーターがあります: centers-クラスター
中心のオプションの出力配列
同じパラメーターが関数kmeans()にもあります。
クラスターに関する情報を知りたい。しかし、配列内のそのクラスターセンターのタイプが何であるかがわからないため、取得できません。
アドバイスありがとうございます!
r - クラスターの最も代表的なインスタンス
データセット ( data.matrixという名前のデータフレーム) に対してクラスター分析を実行した後、各インスタンスが属するクラスター名を含む、クラスターという名前の新しい列を末尾 (列 27) に追加しました。
私が今欲しいのは、各クラスターの代表的なインスタンスです。クラスターの重心から最小のユークリッド距離を持つインスタンスを見つけようとしました (そして、クラスターごとに手順を繰り返します)。
これが私がしたことです。他の - おそらくもっとエレガントな - 方法を考えられますか? (null のない数値列を想定します)。
algorithm - 自動生成された特徴ベクトルの集約
私は分類システムを持っていますが、残念ながら仕事上の理由からあいまいにする必要があります。考慮すべき 5 つの機能があるとします。基本的には一連のルールです。
サブジェクトを取得して AE の値を取得し、ルールを順番に照合してみます。いずれかが一致した場合、最初の結果を返します。
C は離散値で、ae のいずれかになります。残りは単なる整数です。
ルールセットは古いシステムから自動的に生成され、非常に多数のルール (約 2,500 万) を含んでいます。古いルールは if ステートメントでした。
ご覧のとおり、古いルールでは多くの場合、一部の機能が使用されなかったり、範囲が受け入れられなかったりします。より厄介なものもあります:
ルールセットは人間が維持する必要があるため、はるかに小さくする必要があるため、最初の例が次のようになるようにルールセットを縮小したいと思います。
結果として、結果列でルールセットを分割し、それぞれを個別に縮小できます。ただし、ルールセットを特定して縮小する簡単な方法は思いつきません。クラスタリング アルゴリズムを試してみましたが、一部のデータが離散的であり、それを連続として扱うのは不完全であるため、それらはチョークします。もう一つの例:
理想的な世界では、これは 2 つのルールになります。
つまり、アルゴリズムは A と B の関係を識別するだけでなく、C がノイズであると推測します (ルールにとって重要ではありません)。
この問題をどうやって解決するか考えている人はいますか? ほとんどの場合、これは 1 回限りのプロセスであると予想されるため、どの言語やライブラリも公正なゲームです。前もって感謝します。
java - Java クラスタリング ライブラリ
Java で軽量のクラスタリング ライブラリを探しています。そのライブラリに何百ものクラスタリング アルゴは必要ありません。5 ~ 7 個のアルゴで十分です。
きっと、「どのような種類のアルゴリズムが必要で、どのような目的のために」と尋ねるでしょう:)。クラスタリングを使用してデータを分類するだけです。たとえば、K は意味します。
PS: weka については知っていますが、特にクラスタリング専用ではないため、使用したくありません。