問題タブ [knn]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
node.js - データセット Node.js の最近傍
データを MongoDB に保存する Node.js アプリケーションがあります。1 つの文書が与えられた場合、データベース内で最も類似した文書を見つけたいと考えています。
私の考えは、すべてのレコードをトレーニング シーケンスとして取得し、最も類似したドキュメント (これら 2 つのドキュメントがどの程度類似しているかについてのパーセンテージを含む) を返す、ある種の最近傍アルゴリズムを実装することです。
たとえば、データベースにこれらのレコードがある...
...このドキュメントに最も近いドキュメントを見つけたい
任意の種類のオブジェクト/パラメーターを取り、最も近い隣人を返す Node モジュール/実装はありますか?
c++ - opencvフランインデックス代入演算子
クラスのメンバーとして使いたいcv::flann::Index
ので、必要に応じて値を割り当てたいと思います。
ただし、の再割り当てがあると、実行中の破棄時にIndex
「解放されたポインタが割り当てられませんでした」というメッセージが表示されます。Index
そのコピー制御に問題がありますか、それとも私はsmthを誤解していますか?
これは機能します:
これは機能しません
そしてこれでも機能しません:
opencv2.4.2です
machine-learning - KNN の KD ツリー検索が機能しないのはいつですか?
KNN (K Nearest Neighbors 問題) の KD Trees について調査し、学習してきましたが、いつ検索が機能しないのでしょうか? または、単純な検索を改善する価値があるかどうか。このアプローチの欠点はありますか?
matlab - データセットのKNN分類。
13個の属性を持つ178個のデータセットがあります。トレーニングとテストのために、それらを2つのグループ(100と78)に分けました。
ラベル付けされた各サンプルのk最近傍を決定したいと思います。サンプルのラベルがk最近傍の他のラベルよりも一般的である場合は、分類を正しいものとしてカウントします。そうでない場合は、分類を正しくないとカウントします。
これは私が完全に失われた部分です。
algorithm - ラージ セットで最近傍を見つける
多次元空間に大量の点があります。そして、特定のポイントに対して(近隣内の)少数の近隣を見つけたいと思います(すべてのポイントのスキャンを避ける必要があります)。
私の解決策が適切かどうか知りたい:
前処理:
- 一連の直交軸を定義する
- 各軸上の各点の射影を作成します
- 各射影は、軸の始点 (キー) と点の識別子 (値) からの距離に関連付けられています。インデックス プロジェクション- それらすべてをソートされたセット (ツリー セットなど) に入れます。
任意の点の近傍を見つけるには:
- 各軸での投影を見つけます
- Idex の使用 - 各存在で最も近い射影を見つける
- 実際の隣人を見つける -すべての結果の交差
簡単な例を次に示します。
交差[2, 4, 1]
し[4, 5]
て答えを生み出す[4]
アルゴリズムで間違いを犯した場合は、指摘してください
ありがとう
matlab - Matlab で KNN の k を選択する
現在、Matlab の k 最近傍分類器 (knnclassify) を使用して、バイナリ属性のトレーニングとテストを行っています。何も指定されていない場合の k のデフォルト値引数は 1 であり、k の他の値を選択できます。私はオンラインとstackoverflowで調査を行いましたが、kのどの値が最適かという私の質問に対処するために関連するものは何もありませんでした。私の特定のデータについてそれを教えてくれる組み込み関数はありますか、それとも単に推測してどの程度の精度が得られるかを待つだけですか? どんな助けでも大歓迎です。
matlab の knnclassify ドキュメントへのリンクは次のとおりです: knnclassify
weka - KNN (IBk) から Weka が ROC 曲線を描く方法
投稿する前に、ROC 曲線についてよく読みました。
そのため、Weka が ROC 曲線を描く方法がわかりませんでした。曲線内のポイントを生成するために変化させるしきい値が見つかりません。ありがとう、
algorithm - KNN が決定木よりもはるかに高速なのはなぜですか?
ある面接で、雇用主からの質問に遭遇しました。彼は、たとえば文字認識や顔認識において、KNN 分類器が決定木よりもはるかに高速なのはなぜですか?と尋ねました。
当時の私にはまったくわかりませんでした。では、速度性能の 2 つの分類方法をどの点で比較すればよいか知りたいですか? ありがとう。
r - ゲノムデータの R で dist と kNN を実行する方法は?
欠損値のあるゲノム データがあり、利用可能な値を使用して各遺伝子ペアの発現レベル間の距離を計算したいと考えています。次に、ギャップを埋めるために K 個の最近傍を発見したいですか? Rでそれを行うにはどうすればよいですか?
... ユークリッド距離を計算するにはどうすればよいですか? 一度に1行だけ使用する必要がありますか?
申し訳ありませんが、私はゲノムデータが初めてで、この情報がどこにも見つかりません。
ありがとう。
machine-learning - k 最近傍アルゴリズム
認識データから人間の活動を認識するために、スマート デバイスに k-Nearest Neighbor アルゴリズムを実装しています。どのように実装するのかを説明します。皆さん、私が取っている手順の改善点を教えてください。また、途中で尋ねる可能性のある質問に答えてください。
手順は次のとおりです。
- 加速度計からの 3 軸加速度とアクティビティを説明するラベルで構成されるラベル付きデータセットをダウンロードしました。このデータセットから、認識したいアクティビティ (私の場合は歩く、座る、立つ) のみのデータをいくつか選択します。
- 次に、データセット内の加速度計データのすべてのウィンドウから (つまり、加速度計データの 128 の読み取り値を含むデータセット内のすべての単一レコードから) 特徴 (私の場合はマグニチュード加速度からの平均、最小、最大、標準偏差) を抽出します。これらの機能をウィンドウのラベルと共に (1 つのレコードとして) デバイス上のテキスト ファイルに JSON 形式で保存します。したがって、トレーニング データ セットの 1 つのレコード/サンプルは、平均、最小、最大、標準偏差、およびラベルで構成されます。
- 分類ステップでは、収集したデータから、上記の 4 つの特徴を抽出する加速度計データのウィンドウも作成します。したがって、収集したデータの 4 つの特徴をトレーニング データの各サンプルと比較する必要があります。1 つのレコードに 4 つの特徴が含まれるため、それらの間の類似性をどのように見つければよいでしょうか?
ポイント (3) の質問に対する解決策として、すべての機能の k 最近傍点をそれらの差を計算して取得し、すべての機能から過半数を選択することを考えていました。どう思いますか?最適化を提案できますか? ありがとうございました :)