問題タブ [outliers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - matplotlib から外れ値を見つける: boxplot
boxplot を使用して非正規分布をプロットしており、matplotlib の boxplot 関数を使用して外れ値を調べることに興味があります。
プロットに加えて、ボックスプロットで外れ値として示されているコード内のポイントの値を見つけることに興味があります。boxplot オブジェクトからダウンストリーム コードで使用するためにこれらの値を抽出する方法はありますか?
r - ggplot2 boxplot + faceting + "free" オプションの外れ値を無視する
この投稿のように、外れ値を無視するために Y 軸を調整するにはどうすればよいですか?ただし、4 つのボックスプロットと「自由なファセット」レイアウトがあるというより困難なケースでは?
p <- ggplot(molten.DF,aes(x=class,y=SOC,fill=class)) + geom_boxplot() + facet_grid(layer~.,scales="free",space="free")
私の図からわかるように、Y 軸範囲の外れ値を考慮すると、ボックスが読みにくくなります。結果にいくつかの外れ値がまだ表示されていても問題はありませんが、ボックスに注目したいと思います!

r - 削除されていない外れ値はほとんどありません
外れ値で構成される大量のデータを処理しています。コードはほとんどのデータセットで正常に機能しますが、少数では機能しません。
このサンプルデータ:
私のコードは:
これにより、外れ値がNAに置き換えられます。この場合、100は削除されますが、50は削除されません。同じことが私のデータセットでも起こっています。理由がわかりません。これについて助けを求めたい。
読んでくれてありがとう。
r - R boxplot で外れ値のラベルを特定するにはどうすればよいですか?
R boxplot 関数は、データを調べるのに非常に便利な方法です。データのおおよその位置と分散、および外れ値の数の視覚的な要約をすばやく提供します。さらに、データセットの問題をすばやく見つけるために、外れ値を特定したいと思います。
これらの外れ値の値には、 を使用してアクセスできますmyplot$out。残念ながら、これらの外れ値のラベルは利用できないようです。プロット自体にラベルを表示することを目的としたパッケージがいくつかあります: http://www.r-statistics.com/2011/01/how-to-label-all-the-outliers-in-a-boxplot/、しかしそれらはうまく機能せず、これらの外れ値をリストしたいだけです。それらをプロット自体に含める必要はありません。
何か案は?
algorithm - 小さなバイナリイメージから外れ値のピクセルを削除する
私は現在、色付きの質量の最小慣性の軸を識別するためのアルゴリズムを実装しています(2次モーメントによって提供されます)。そのためには、最初の瞬間に与えられた重心を取得する必要があります。
加重平均関数はうまく機能しますが、外れ値のピクセルが原因で、望ましくない結果が得られます。
平均化関数は次のとおりです。
(例:xの加重平均)

このような画像が2色(背景と前景)のみで表されている場合、範囲外のピクセルを削除するにはどうすればよいですか?注:範囲外のピクセルとは、大きなカラーマスの一部ではないものを指します。白い点は計算された重心ですが、これは正しくありません。
とても有難い。
matlab - 99.7 カバレッジの箱ひげ図のひげの値
MATLAB を使用して箱ひげ図から外れ値を特定しようとしています。この関数のデフォルトのウィスカー値は 1.5 で、+- 2.7*シグマまたは 99.3 のカバレッジを提供します。ただし、99.7 または 3*シグマのカバレッジが必要です。この場合、ウィスカーの価値は何でしょうか? 無作為に推測したくなかったので、皆さんの助けが必要です。ありがとう
python - matplotlib:プロット時に外れ値を無視します
さまざまなテストからのデータをプロットしています。テストでは、たまたま1つの外れ値(たとえば0.1)がありますが、他のすべての値は3桁小さくなっています。
matplotlibを使用して、範囲に対してプロットします[0, max_data_value]
データを拡大して、プロットのx軸を台無しにする外れ値を表示しないようにするにはどうすればよいですか?
単純に95パーセンタイルを取り、[0, 95_percentile] x軸に範囲を設定する必要がありますか?
r - rの外れ値を削除する
試行 (X) と時間 (Y) を含む Excel ファイル (csv として保存) からの大量のデータがあります。カイ二乗検定コードを使用して、試行内の単一の外れ値を取り除くコードがあることを知っています。ただし、ファイル内の他のデータはそのままにして、データセット内に外れ値がある列全体を取り出したいと考えています。これを可能にするコードを見つける/思いつくのに苦労しています。何か提案はありますか?!
python - スケールのない y 軸を持つ箱ひげ図
ボックス プロットしたいデータがあります。外れ値 (例: 20、30) はほとんどの値 (例: 0.0002、0.0003) から離れすぎているため、matplotlib でプロットすると外れ値しか表示されません。
中央値付近の値をズームインして、残りの y 軸をスケールに入れないで、外れ値も表示する方法はありますか?
EDITこれがPythonでの私のコードです。以下に示すように、ボックス プロットごとに挿入軸を使用したいと思います。どうすればこれを簡単に行うことができますか?ドキュメントの例からは、処理するパラメータが多すぎるようです。
r - 季節時系列外れ値のフィルタリング
季節性の高い気象関連のデータがいくつかあります。やりたいことは、いくつかの「外れ値」を特定し、これらの外れ値を妥当な値に変更することです (それらを削除したくありません)。
pracmaパッケージのhampelフィルターを使用して、これらの外れ値を特定して修正していますが、問題は、いくつかの季節的なピークが下がりすぎていることです。この関数は季節性を考慮していないと思います。以下のプロットはこれを示しています (24 か月のウィンドウ)。赤い線はフィルター処理されたデータです。
これを修正する方法はありますか?つまり、「ピーク」を取り、シーズン間の平均をとりますか? ありがとう!
