問題タブ [anomaly-detection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - PMD からのデータフロー異常分析警告
私は Eclipse を使用してPMD Plug-in (4.0.0.v20130510-1000)
おり、これらの違反がたくさん発生します。
Found 'DD'-anomaly for variable 'freq' (lines '187'-'189').
Found 'DU'-anomaly for variable 'freq' (lines '189'-'333').
このSO 回答では、これらの異常は読み取られない値の割り当てに関連していると述べています。しかし、この場合、たとえば違反が発生します。
freq = 0;
初期化を削除してブロックに行を追加するとcatch
、DD 異常は消えますが、両方の割り当てで DU 異常が発生します。
ここで私の質問: どのように対処すればよいでしょうか? PMD の好ましい解決策は何ですか? そして、このルールは正確に何を防止しようとしているのでしょうか (つまり、なぜそれが悪い慣行なのか)?
machine-learning - 機械学習 - 1 つのクラス分類/ノベルティ検出/異常評価?
次の要件を満たす機械学習アルゴリズムが必要です。
- トレーニング データは一連の特徴ベクトルであり、すべてが同じ「正」のクラスに属しています (負のデータ サンプルを生成できないため)。
- テスト データは、陽性クラスに属する場合と属さない場合があるいくつかの特徴ベクトルです。
- 予測は、陽性サンプルからの「距離」を示す連続値である必要があります (つまり、0 はテスト サンプルが明らかに陽性クラスに属することを意味し、1 は明らかに陰性であることを意味しますが、0.3 はやや陽性であることを意味します)。
例: 特徴ベクトルが 2D 特徴ベクトルであるとしましょう。
正のトレーニング データ:
- (0, 1), (0, 2), (0, 3)
テストデータ:
- (0, 10) は異常であるべきですが、明確なものではありません
- (1, 0) は異常であるはずですが、(0, 10) よりも「ランク」が高くなります
- (1, 10) は異常である必要があり、異常の「ランク」はさらに高くなります
machine-learning - 時系列単変量データセットの異常検出アルゴリズム
単変量の時系列データがあり、同じデータに対して異常検出アルゴリズムを実行する必要があります。ほとんどの場合に機能する異常検出の標準アルゴリズムを提案できる人はいますか?
google-analytics - リアルタイムでの Google アナリティクスの異常検出
ページ ビューやカスタム イベントなどの Google アナリティクス イベントの異常を検出しようとしています。Google 自体のカスタム アラート機能をテストしました。これらのアラートの期間は、1 日、1 週間、または 1 か月ごとです。私が探しているのは、リアルタイム検出です。2 つの時点間の最大差異などのアラートのルールを定義すると便利です。たとえば、[今、今 - 15 分] または [今、今 - 24 時間] または [今、今 - 7 日]。一部のソリューションは、固定しきい値を超えたときにアラートを提供します ( observe.io など)。しかし、それは平日と昼間に依存する非常に変動する数値 (ページビューなど) にはあまり役に立ちません。
リアルタイムで GA の異常を検出する方法のヒントに感謝します。
r - R AnomalyDetectionTs エラーを回避する方法 TRUE/FALSE が必要な場所に値がありません
AnomalyDetection R パッケージの AnomalyDetectionTs 関数に問題があります。
この投稿に続いて: https://blog.twitter.com/2015/introducing-practical-and-robust-anomaly-detection-in-a-time-series
これを生成します:
公式ドキュメントと同じデータ形式、同じデータ型、同じデータ フレーム サイズ、同じパラメーターを使用しています。
machine-learning - 多次元データの共通特徴を検出する
私は異常検出のためのシステムを設計しています。
このようなシステムを構築するには、複数のアプローチがあります。私は、大多数のサンプルが共有する特徴を検出することによって、そのようなシステムの 1 つの側面を実装することを選択します。このような方法が不十分である可能性があることは認めますが、私の特定のユースケースでは: (1) 新しいサンプルに過去のデータの大部分が共有する特徴が含まれている (または欠けている) ことを知っていれば、迅速な決定を下すことができます。(2) 私はそのような方法がデータに提供する洞察に興味があります。
だから、ここに問題があります:
各データ ポイントに任意の数の {key:value} 特徴を含めることができる、M個のデータ ポイントを持つ大規模なデータ セットを考えてみましょう。データで観察されたすべての機能 (すべての一意のキーのセット) をグループ化し、それをモデルの機能空間として設定することで、トレーニング データセットをモデル化することにしました。既存のキーには値を設定し、含まれていない機能の値にはNoneを設定して、各サンプルを定義します。
このトレーニング データ セットを使用して、データ内でどの特徴が再発するかを判断したいと思います。そして、そのような繰り返し機能については、それらはほとんど単一の値を共有していますか.
私の質問:
簡単な解決策は、すべてをカウントすることです。N 個の特徴のそれぞれについて、値の分布を計算します。ただし、MとNは潜在的に大きいため、データを表現するためのよりコンパクトな方法や、特徴の頻度について主張するためのより洗練された方法があるのではないかと思います。
既存の車輪を再発明していますか? このようなタスクを達成するためのオンライン アプローチがあれば、さらに優れたものになります。
r - R の Bursts パッケージを使用して時系列でバーストを見つける方法
バーストパッケージでバースト検出を試みました。時系列でスパイクを見つけたいので、これをやっています。
私がするとき、kleinberg(ts)
それは言います:
時系列は次のとおりです。
dput(ts)
私が興味を持っている特定の時系列の出力は