問題タブ [outliers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R コードで外れ値テストを使用する方法
データ分析ワークフローの一環として、外れ値をテストし、それらの外れ値がある場合とない場合でさらに計算を行いたいと考えています。
さまざまなテストを含む外れ値パッケージを見つけましたが、ワークフローでそれらをどのように使用するのが最適かわかりません。
statistics - データセットから外れ値を除外するための効率的で正確なアルゴリズムは何ですか?
200 のデータ行のセットがあります (データの小さなセットを意味します)。統計分析を実行したいのですが、その前に外れ値を除外したいと考えています。
その目的のための潜在的なアルゴリズムは何ですか? 精度は懸念事項です。
私は統計に非常に慣れていないので、非常に基本的なアルゴリズムの助けが必要です.
r - R:ggplot2のスムーザーから外れ値を削除するにはどうすればよいですか?
ggplot2でプロットしようとしている次のデータセットがあります。これは、3つの実験A1、B1、およびC1の時系列であり、各実験には3つの複製があります。
よりスムーズな値(平均と分散?)を返す前に、外れ値を検出して削除する統計を追加しようとしています。私は独自の外れ値関数(図には示されていません)を作成しましたが、これを実行する関数がすでに存在することを期待しています。
ggplot2の本のいくつかの例からstat_sum_df( "median_hilow"、geom = "smooth")を見てきましたが、外れ値が削除されるかどうかを確認するためにHmiscのヘルプドキュメントを理解していませんでした。
ggplotにこのような外れ値を削除する関数はありますか、または自分の関数を追加するために以下のコードをどこで修正しますか?
編集:私はこれ(Rコードで外れ値テストを使用する方法)を見たばかりで、Hadleyがrlmなどの堅牢な方法を使用することを推奨していることに気付きました。私は細菌の増殖曲線をプロットしているので、線形モデルが最適だとは思いませんが、他のモデルに関するアドバイスや、この状況で堅牢なモデルを使用または使用することをお勧めします。
これは私がこれまでに持っていたものであり、うまく機能していますが、外れ値は削除されていません。
編集:上記の例のデータではなく、実際のデータから発生している外れ値の問題の例を示す2つのグラフを以下に追加しました。
最初のプロットはシリーズp26s4を示しており、32日目頃、2つの複製で本当に奇妙なことが起こり、2つの外れ値が示されています。
2番目のプロットはシリーズp22s5を示しており、18日目には、その日の読み取りで何か奇妙なことが起こりました。おそらくマシンエラーだと思います。
現時点では、成長曲線に問題がないことを確認するために、データに注目しています。Hadleyのアドバイスを受け、family = "symmetric"に設定した後、私は、レススムーザーが外れ値を無視するというまともな仕事をしていると確信しています。
@ Peter / @ hadley、次にやりたいことは、黄土ではなく、ロジスティック、ゴンペルツ、またはリチャードの成長曲線をこのデータに適合させ、指数関数的段階での成長率を計算することです。最終的にはRでgrofitパッケージ(http://cran.r-project.org/web/packages/grofit/index.html)を使用する予定ですが、今のところ、可能であればggplot2を使用してこれらを手動でプロットしたいと思います。あなたが何かポインタを持っているなら、それは大いにありがたいです。
java - MATLAB のロバストフィットに相当する Java または C
robustfit
MATLAB には、線形回帰フィッティングで外れ値を除外するという問題を解決する素晴らしい機能があります。Java や C (または採用できる言語 X) で書かれた同様のものはありますか?
r - データセットから外れ値を削除する方法
美しさと年齢の多変量データがあります。年齢は 20 歳から 40 歳の範囲で 2 刻み (20、22、24....40) で、データのレコードごとに、年齢と 1 から 5 までの美しさの評価が与えられます。このデータ (X 軸の年齢、Y 軸の美しさの評価) の箱ひげ図を作成すると、各箱のひげの外側にいくつかの外れ値がプロットされます。
これらの外れ値をデータ フレーム自体から削除したいのですが、R が箱ひげ図の外れ値をどのように計算するのかわかりません。以下は、私のデータがどのように見えるかの例です。
ruby - 統計的な外れ値を検出できる Gem
セットの統計的外れ値を検出できる宝石を知っている人はいますか?
ありがとう。
r - R言語-データを範囲に並べ替えます。平均化; 外れ値を無視する
私は風力タービンからのデータを分析しています。通常、これは私がExcelで行うようなものですが、データの量にはかなりの負荷がかかります。私はこれまでRを使用したことがないので、いくつかのポインターを探しています。
データはWindSpeedとPowerの2つの列で構成されています。これまでのところ、CSVファイルからデータをインポートし、2つを相互に分散プロットしました。
次にやりたいのは、データを範囲に並べ替えることです。たとえば、WindSpeedがxとyの間にあるすべてのデータを検索し、各範囲で生成された電力の平均を求めて、形成された曲線をグラフ化します。
この平均から、平均の2つの標準偏差のいずれかに該当するデータに基づいて平均を再計算します(基本的に外れ値を無視します)。
どんなポインタでも大歓迎です。
興味のある方のために、これに似たグラフを作成しようとしています。これはかなり標準的なタイプのグラフですが、前述したように、データのせん断量には、Excelよりも重いものが必要です。
function - R: 分位数 0.05 および 0.95 を使用した、データフレーム内の各列の外れ値のクリーニング
私はR初心者です。サンプルをランダム フォレストに入れる前に、外れ値のクリーニングと 0 から 1 への全体的なスケーリングを実行したいと考えています。
0 - 1 の単純なスケーリングを行うと、結果は次のようになります。
したがって、私の考えは、0.95 分位よりも大きい各列の値を、0.95 分位よりも小さい次の値に置き換えることです。0.05 分位についても同様です。
したがって、事前にスケーリングされた結果は次のようになります。
およびスケーリング:
データフレーム全体にこの式が必要なので、R 内の機能的な実装は次のようになります。
誰でも助けることができますか?
余談ですが、この仕事を直接行う機能があれば教えてください。私はすでに をチェックアウトcut
しcut2
ました。cut
一意ではないブレークのために失敗します。cut2
動作しますが、文字列値または平均値のみが返され、0 - 1 の数値ベクトルが必要です。
トライアル用:
ご協力ありがとうございます。
ライナー
data-mining - データマイニングにおける外れ値検出
外れ値の検出に関していくつか質問があります。
k-means を使用して外れ値を見つけることはできますか?これは良いアプローチですか?
ユーザーからの入力を一切受け付けないクラスタリング アルゴリズムはありますか?
外れ値の検出に、サポート ベクター マシンやその他の教師あり学習アルゴリズムを使用できますか?
各アプローチの長所と短所は何ですか?
data-mining - データベース用のオープンソースの外れ値マイナーはありますか
オープンソースの外れ値検出器を探しています。このような検出器は、rapidminer/knime/wekka を使用して実現できることは知っていますが、そのようなツールが既に存在するかどうかは疑問です。