問題タブ [outliers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - ベクトルのリストから外れ値を削除するには?
私はこのベクトルのリストを持っています:
Hampel メソッドを使用して、個々のベクトルから外れ値を削除したいと思います。
私が見つけた1つの方法は次のとおりです。
しかし、lapply内で直接、新しい関数を宣言せずにそれを行うことができるかどうか疑問に思っていました. lapply は個々のベクトルを関数 reoutliers に送信しますが、この個々のベクトルを lapply 内で直接操作する方法を知っていますか? 関数 "replace" で repoutliers を交換するとしましょう。replace (lapply(X,FUN,...); ... = replace arguments) の引数で個々のベクトルを呼び出すことで、同じ単語を実行できます。
簡単に言うと、lapply が関数 winthin lapply に送信する個々のベクトルを操作する方法は?
matlab - Matlab で LibSVM を使用した 1 クラス SVM - 概念
これは簡単な質問かもしれませんが、1 クラス SVM の LibSVM 実装の概念的な基礎と、私が行っていることが許容されるかどうかを理解したいと思います。
この場合、外れ値の検出と除去のために 1 つのクラスの SVM を使用しています。これは、より大きな時系列予測モデルのコンテキストで、データの前処理ステップとして使用されます。そうは言っても、Y ベクトル (予測しようとしている量であり、クラス ラベルではなく連続です) と X 行列 (予測に使用される連続特徴) があります。前処理ステップの早い段階でデータの異常値を検出したいので、予測に使用するために X マトリックスを正規化またはラグする必要があります。さらに言えば、Y ベクトルをトレンド除去/ノイズ除去/またはその他の方法で処理する必要があります (これは既にスケーリングされています)。 [-1,1] 以内)。私の主な質問は、1 つのクラスの SVM を (libSVM を使用して) 次のようにモデル化することが正しいかどうかです。
結果として得られるモデルは、私が期待するものとある程度一致するパフォーマンスをもたらします (99% 程度の予測精度、つまり観測値の 1% が異常値であることを意味します)。しかし、私が質問する理由は、1 つのクラスの SVM に関する他の質問では、私が Y を使用する X 行列を使用しているように見えるからです。助けてくれてありがとう。
weka - WEKA で k-means クラスタリングを使用して外れ値インスタンスを取得するにはどうすればよいですか?
WEKA で SimpleKmeans クラスを使ったことがあるので、インスタンスのクラスタリングも行います。しかし、外れ値のインスタンスを取得する際に問題があります。
このクラスの各クラスターには center(または centroid) とradiusがあるため、すべてのクラスターの円をその重心と半径でチェックすることで外れ値を見つけることができると思いました。クラスターの半径を取得する変数や関数は見つかりませんでしたが。
さて、WEKAのSimpleKmeansクラスで外れ値を見つける他の方法を知っていますか? または、各クラスターの半径を示す変数はありますか?
r - データフレームの変数ごとに外れ値を一覧表示する
8 つの変数 (x1、x2.. x8) のデータ フレームがあります。
次を使用して箱ひげ図の外れ値を取得したいと思います。
私の望む出力は、データフレームに変数ごとの外れ値をリストすることです。次のように:
ご協力ありがとうございました、
r - ggplot2 のボックスプロットの「範囲」に相当
ggplot2 の geom_boxplot のウィスカーで外れ値をカバーしようとしています。外れ値は箱ひげ図に含まれているため、事実上ドットとして表示されません。
標準の「boxplot」を使用していた場合、次を使用します。
ここで、nは大きな数になるため、外れ値を表示する代わりに、箱ひげ図のひげが伸びて外れ値をカバーします。
これはggplot2でどのように行うことができますか? 私はもう試した:
注:次のようなものを使用して外れ値を破棄したくありません。
r - リストのサブセットで外れ値を特定する
私の不正確な用語を許してください。たとえば、データフレームを必要なサブセットに分割しましたが、Rstudio によれば、結果はリストです。私は用語に混乱しているので、SOで答えを探すのに苦労しています。
私の質問は、リスト内のサブセットから外れ値を削除する関数をどのように適用するのですか? データフレーム内の私のデータ (see2):
このコードを使用して、5 を識別子ブレークとしてデータをサブセットに分割しました。
例として see2$'1' を使用して、各セット see2$'#' の外れ値をテストしたいと思います。それ、どうやったら出来るの?ご助力ありがとうございます。
java - ArrayList で外れ値を検出する方法
ArrayList を検索して、「適切な値」の一般的な範囲外の値を検出できるコードを考えようとしています。
例: 100 105 102 13 104 22 101
(この場合) 13 と 22 が約 100 の「適切な値」に収まらないことを検出するコードを作成するにはどうすればよいでしょうか?
r - ジッタ付き箱ひげ図のすべての外れ値の形状を変更する
私はネットを見回して、外れ値のジッターと形状の変更に関する多くのことを見つけましたが、この特定の問題については何も見つけられないようです.
ジッタリングされたデータポイントを含む白黒の箱ひげ図が必要です-それは可能です。
外れ値の形状も変更したいと思います。スコアが 4 のケースは複数ありますが、そのうちの 1 つだけが白丸に変わります。
特定のレベルの 1 つのデータ ポイントが外れ値と見なされる場合、残りのデータ ポイントも外れ値と見なされると思います。
これはコーディング エラーですか、それとも統計クラスの途中で何かを見逃したのでしょうか? それがコーディングの場合、どうすればそれらすべてを中空にすることができますか?
画像を添付するには、私の「評判」が 10 である必要があるようです。それがなくても意味があることを願っています
これが私のコードです:
database - ELKI でインデックス構造を使用するにはどうすればよいですか?
これらはhttp://elki.dbs.ifi.lmu.de/ からの引用です:
「本質的に、抽象距離クエリをデータベースにバインドし、この距離の最近傍検索を取得します。この時点で、ELKI は自動的に最も適切な kNN クエリ クラスを選択します。距離関数に適切なインデックスが存在する場合 (すべてのインデックスがすべての距離を加速できるわけではありません!)、ここでは自動的に使用されます。"
「getKNNForDBID メソッドは、低速の線形スキャンに要約される可能性がありますが、データベースに適切なインデックスがある場合、インデックス クエリが使用されます。その後、アルゴリズムは O(nk log n) または O(nk) 時間で実行できます。」
問題は、どのような基準で ELKI がインデックス クエリを実行するかどうかを選択するかということです。
「データベースに適切なインデックスがある場合」とはどういう意味ですか?どうすればそれを保証できますか?
「run」メソッドの署名に関する別の無関係な質問ですが、1 つではなく 3 つの署名があるのはなぜですか? それらの違いは何ですか?また、使用する署名を決定する基準は何ですか?