問題タブ [outliers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2389 参照

c++ - 小さいセットでの外れ値の検出

10 進数の小さなセットで外れ値を検出するための優れたアルゴリズムはありますか? これまでに思いついた最良のアイデアは、一種の再帰的な標準偏差ベースのアプローチですが、計算コストが少し高いようです。

私はc ++を使用しているため、Boostやその他の数学ヘルパーライブラリなどの既存の機能を回答に歓迎します。

ありがとう。

0 投票する
1 に答える
840 参照

matlab - 確率・度数分布の外れ値検出

次の 2 次元データセットがあります。両方 (X と Y) は連続確率変数です。

Z = (X, y) = {(1, 7), (2, 15), (3, 24), (4, 25), (5, 29), (6, 32), (7, 34) , (8, 35), (9, 27), (10, 39)}

y 変数の値に関して外れ値を検出したいと考えています。y 変数の通常の範囲は 10 ~ 35 です。したがって、上記のデータセットの最初と最後のペアは外れ値で、その他は通常のパリです。変数 z = (x, y) を、外れ値 (最初と最後のペア) が標準偏差 1 の外にある確率/頻度分布に変換したいと考えています。

PS: ユークリッド距離やマハラノビス距離など、さまざまな距離を試しましたが、うまくいきませんでした。

0 投票する
1 に答える
5858 参照

python - python pandas データフレームから外れ値を削除し、前のレコードの平均値に置き換える方法

データフレーム 16k レコードと、国やその他のフィールドの複数のグループがあります。以下のスニピットのようなデータの初期出力を生成しました。ここで、データのクレンジング、操作、スキューや異常値の削除、特定のルールに基づく値への置換を行う必要があります。

つまり、以下では、歪んだポイント (1 より大きい任意の値) を特定し、それらを次の 2 つのレコードまたは前のレコードの平均に置き換えることができます (そのグループ内に) 後のレコードがない場合。

したがって、以下のデータフレームで、IT の週 1 の Bill%4 の 1.21 を IT の週 2 と週 3 の平均に置き換えて、0.81 にします。

このためのトリックはありますか?

0 投票する
0 に答える
175 参照

r - 外れ値のケースがある場合とない場合の重回帰比較

私は現在重回帰を行っており、パッケージのaq.plot関数を使用して、データ内の 3 つの主要な外れ値を特定しました。mvoutlier特に1つのケースは非常にありそうもないので、この1つのケースがある場合とない場合でモデルを比較する方法を見つけようとしています. これを行う機能はありますか?

0 投票する
1 に答える
4911 参照

python - K最近傍を使用した異常検出?

19 機能のトラフィック統計に基づいて、ネットワーク侵入検知システムを作成したいと考えています。One Class SVM アルゴリズムを試してみましたが、k Nearest Neighbors もこのタスクを実行できると聞きました。同様に、異常のないトレーニング データ セットと、いくつかの異常と関連するラベル (正常の場合は 1、異常の場合は -1) を含むテスト データ セットがあります。

training_samples.csv (最初の 200 サンプル、完全なファイルには ~1200 が含まれます)

testing_samples.csv (最初の 100 サンプル、完全なファイルには 193 が含まれます)

testing_labels.csv (100 の最初のラベル、完全なファイルには 193 が含まれます)

Scikit-Learn の KNeighborsClassifier 実装を使用していますが、すべての予測ラベルが 1 に設定されています。

K Nearest Neighbor アルゴリズム (sklearn からではない場合、別のライブラリからのもの) を使用して、ノベルティ/外れ値の検出を実行することは可能ですか?

0 投票する
5 に答える
49476 参照

r - R の ggplot2 で作成された複数の箱ひげ図から外れ値を完全に削除し、箱ひげ図を拡張形式で表示します

ここに[.txtファイル内の]データがいくつかあり、それをデータフレームdfに読み込みました。

次のコードを使用して、列の負の値を削除しますx(正の値のみが必要なため) 。df

今、同じレイヤーに複数の箱ひげ図をプロットしたい。最初にデータ フレームを溶かしdfます。結果のプロットには、以下に示すようにいくつかの外れ値が含まれます。

外れ値のある箱ひげ図

ここで、外れ値のないプロットを作成する必要があるため、最初にこれを行うには、ここで提案されている次のコードを使用して、下限と上限のウィスカーを計算します。

外れ値を取り除くために、ウィスカーの上限と下限を以下のように追加します。

結果のプロットを以下に示しますが、上記のコード行は上位の外れ値のほとんどを正しく削除しますが、下位の外れ値はすべて残っています。誰かがこのプロットからすべての外れ値を完全に削除する方法を提案してくれませんか、ありがとう。

ここに画像の説明を入力

0 投票する
1 に答える
373 参照

algorithm - ELKI MiniGUI を使用して、属性値の空間的な外れ値を検出するための空間 KNN を作成します。

ELKI MiniGUI を使用して空間的外れ値検出アルゴリズムを実行するのに問題があります。多くのアルゴリズムでは、データベース内のオブジェクトごとに KNN のリストが必要です。KNN ラベル リストは、最初に空間座標データベースのみから作成する必要があり、属性は含まれないようです。次に、空間外れ値検出アルゴリズムが、空間 KNN の外部ファイルと共に属性データベースで実行されるとします。

私の Java 経験は限られているので、コマンド ラインで ELKI を使用し、MiniGUI を使用して各タスクのコードを組み立てたいと考えています。ただし、MiniGUI では、1) 三角距離行列と 2) KNN 距離順序の外部ファイルを作成または具体化することしかできませんでした。これには、オブジェクト自体が KNN の 1 つとして含まれているようです。各オブジェクトとその空間近傍のリストの外部ファイルまたはキャッシュ データが本当に必要なようです。KNN Query、KNN Join、事前計算された距離、または事前処理されたデータベース フィルターが役立つかもしれませんが、私にはわかりません。

各オブジェクトの空間的外れ値検出属性関係の KNN 空間関係をその近隣オブジェクトに提供するために必要なファイルまたはキャッシュ データを作成して使用するには、どのような手順が必要ですか? 特に、空間的外れ値検出アルゴリズムと属性データベースで使用する前に、空間近傍関係を最初に作成する必要があるように見えるため、MiniGUI でこれを行う方法がわかりません。

どんなアドバイスでも大歓迎です。

ありがとう!

0 投票する
3 に答える
4642 参照

r - R で外れ値を置き換える

外れ値を値 -9999 に置き換える方法が必要です。私のデータでは -9999 は値が欠落していることを意味します。これは、NA の代わりにこのタイプのデータに通常使用される単なる規則です。

43列のamfというデータフレームがあります。列ごとに移動し、99 パーセンタイルを超える値と 1 パーセンタイルを下回る値をそれぞれ -9999 に置き換える必要があります。ただし、年の列など、いくつかの列をスキップする必要があります。

apply 関数と lapply 関数をさまざまな方法で使用してみましたが、間違って使用しているに違いありません。これが私が試したことです

論文はどれも機能していません。助言がありますか?

0 投票する
1 に答える
669 参照

matlab - for ループでの MAD 外れ値分析

Bマトリックス(126 x 7)で中央絶対偏差外れ値分析を実行しています。以下のコードは機能していると思いましたが、寸法の不一致に関するエラーが発生します。誰でも私を助けることができますか?私はまだ MATLAB の初心者です。