問題タブ [time-series]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
time-series - 多言語製品のコードメトリックの監視
C++とJavaのパーツで構成された製品があります。C ++のものはmakeを使用してビルドされ、Javaプロジェクトはいくつかのantプロジェクトといくつかのmaven2プロジェクトで構成されています。
時間の経過とともにビルドシステムから有用なメトリックを取得するのに役立つツールを探しています。例には以下が含まれます
おそらく他にもたくさんの指標が考えられますが、あなたはその考えを理解しています。
1回限りのレポートのこれらのメトリックを取得するのは非常に簡単です。私が本当に必要としているのは、これらのメトリックを時間の経過とともにプロットできるシンプルなツールです。
これが非常に役立つ単純なユースケースは、時間の経過とともに警告の数がゼロに向かう傾向があることを確認できるため、コンパイラの警告です。(これはかなり大きなプロジェクトであり、ビッグバンアプローチの時間がないため、一度にすべてを修正することはできません)。また、新しい警告が発生したときに、それらをすばやく見つけるのにも役立ちます。
私はこの質問を長期間にわたってJavaでコードメトリックを監視するのを見てきましたが、もう少し言語に依存しないものを探しています
つまり、要約すると。時間の経過とともにメトリックをレポートし、簡単に拡張でき、WebベースのレポートGUIを備え、できれば安価なものを探しています。(あまり求めていません!)
編集:明確にするために、CIサーバーとしてCruiseControlを使用しています。メトリックまたは時間ベースのメトリックを出力に追加する簡単な方法を見たことがありません。多分私は明白な何かを逃しています。カスタムメトリックの追加についてこのページのように見えますが、私にとっては少し不格好です。
理想的には、メトリックを単純な形式でファイルに書き込み、何かがメトリックを動的に生成するようにしたいです。理想的には、以下の出力のようなものを単純なチャートに変換したいと思います
r - Apply ステートメントのラグが R で機能しない
Rのzooオブジェクトで「ラグ」を行う関数を「適用」しようとしています.
単一のzooベクトルを渡すと、関数は正しく機能します-ラグが適用され、すべてが機能します。
ただし、apply( data, 1, function )
ラグが機能しない場合。エラーはなく、ゼロ ラグと同等です。
これは単純なapply( data, 1, lag )
.
なぜこれが当てはまるのか、誰でも説明できますか?ラグを発生させるためにできることはありますか?
matlab - 数値シリーズを拡張するためにMatlabでaryule()を使用する方法は?
一連の数字があります。ユール・ウォーカー法を使用して、それらの間 の「自己回帰」を計算しました。
しかし、どうすればシリーズを拡張できますか?
全体の作業は次のとおりです。
a)私が使用するシリーズ:
143.85 141.95 141.45 142.30 140.60 140.00 138.40 137.10 138.90 139.85 138.75 139.85 141.30 139.45 140.15 140.80 142.50 143.00 142.35 143.00 142.55 140.50 141.25 140.55 141.45 142.05
b) このデータは、次を使用してdataにロードされます。
c) 係数の計算:
これは与える:
d)これを使用して、シリーズの次の数を計算するにはどうすればよいですか?
[これを行う他の方法 (aryule() を使用する場合を除く) も問題ありません...これは私がやったことです。より良いアイデアがあれば、私に知らせてください!]
algorithm - 多次元配列で類似点を見つける
毎日の売上目標を設定する営業部門を考えてみましょう。総目標は重要ではありませんが、超過または未成年は重要です。たとえば、第 1 週の月曜日に 50 の目標があり、60 を販売した場合、その日のスコアは +10 になります。火曜日の目標は 48 で、46 を販売してスコアを -2 にします。週の終わりに、次のようにその週を記録します。
この例では、月曜日 (0,0) と木曜日と金曜日 (0,3 と 0,4) の両方が「暑い」です。
2 週目の結果を見ると、次のことがわかります。
第 2 週は、週の終わりが暑く、火曜日は暖かいです。
次に、第 1 週と第 2 週を比較すると、週の前半よりも週の終わりの方が良い傾向にあることがわかります。それでは、第 3 週と第 4 週を追加しましょう。
このことから、週の終わりがより良い理論であることがわかります。しかし、月初よりも月末の方が良いこともわかります。もちろん、次に今月と来月を比較したり、四半期ごとまたは年次の結果について月のグループを比較したりしたいと考えています。
私は数学や統計の専門家ではありませんが、この種の問題用に設計されたアルゴリズムがあることは確かです。私は数学のバックグラウンドを持っていない (そして以前の代数学を覚えていない) ので、どこに助けを求めればよいでしょうか? このタイプの「ホットスポット」ロジックには名前がありますか? 多次元配列を切り分けて比較できる数式またはアルゴリズムはありますか?
ヘルプ、ポインタ、またはアドバイスをいただければ幸いです。
mysql - 成長する時間関連の Mysql テーブルの縮小
時間関連のデータを含むデータベースがあります。ご想像のとおり、時間の経過とともに成長 (および減速) します。現在 (今月) のデータには 50% の読み取り、25% の挿入、25% の更新アクションがあり、古いデータの読み取りは 100% です。
- 良いことに、古いデータの重要性も低くなります。
- 悪い点は、現在から昨年までの期間全体を照会する必要がある場合があることです。
今、古いデータよりも新しいデータをより速く提供する mysql アーキテクチャが必要です。
mysqlでそれを行う方法はありますか?
post scriptum: もちろん、アプリケーション層で ruby on rails とアクティブ レコードを使用しているので、アクティブ レコードの基本クラスを簡単に書き換えて、複数のテーブルにアクセスし、古いデータを別のテーブルに移動することができます。しかし、レポートなどの他のシステムからクエリを読み取ったため、古いデータと新しいデータにアクセスできる必要があり、場合によっては同時に両方にアクセスできるため、mysql で解決したいと考えています。
r - R の時系列
スプレッド シートで体重を追跡していますが、R を使用してエクスペリエンスを改善したいと考えています。R での時系列分析に関する情報を見つけようとしましたが、うまくいきませんでした。
ここにあるデータは次の形式です。
例えば
私がしたいこと
plot
時間に対する加重および指数移動平均
どうすればそれを達成できますか?
cassandra - 大量の順序付けられた時系列データをbigtable派生物に保存する
私は、bigtable、hbase、cassandraなどのこれらの新しいデータストアが実際に何であるかを正確に把握しようとしています。
私は大量の株式市場データ、毎日数百ギガバイトを追加できる数十億行の価格/見積もりデータを処理します(ただし、これらのテキストファイルは少なくとも1桁圧縮されることがよくあります)。このデータは基本的に、少数の数値、2つまたは3つの短い文字列、およびタイムスタンプ(通常はミリ秒レベル)です。行ごとに一意の識別子を選択する必要がある場合は、行全体を選択する必要があります(交換により、同じミリ秒で同じシンボルに対して複数の値が生成される可能性があるため)。
このデータをbigtable(その派生物を含む)にマッピングする最も簡単な方法は、シンボル名と日付(非常に大きな時系列を返す可能性があり、100万を超えるデータポイントは前代未聞ではありません)によるものだと思います。説明を読むと、これらのシステムでは複数のキーを使用できるようです。また、10進数はキーの候補としては適切ではないと思います。
これらのシステムの一部(たとえば、Cassandra)は、範囲クエリを実行できると主張しています。たとえば、特定の日の午前11時から午後1時30分までのMSFTのすべての値を効率的にクエリできますか?
特定の日のすべてのシンボルを検索し、価格が$ 10〜 $ 10.25のすべてのシンボルを要求したい場合はどうなりますか(値を検索し、結果としてキーを返したい場合)?
2つの時系列を取得し、一方を他方から減算し、2つの時系列とその結果を返したい場合、自分のプログラムで彼のロジックを実行する必要がありますか?
関連する論文を読むと、これらのシステムは大規模な時系列システムにはあまり適していないことがわかります。しかし、グーグルマップのようなシステムがそれらに基づいているなら、時系列もうまくいくはずだと思います。たとえば、時間をx軸、価格をy軸、シンボルを名前付きの場所と考えてください。突然、bigtableが時系列の理想的なストアになるはずです(地球全体を保存、取得できる場合) 、ズームおよび注釈付きの株式市場データは些細なものである必要があります)。
専門家が私を正しい方向に向けたり、誤解を解いたりできますか。
ありがとう
math - コレログラムを使用して分散を推定する方法は?
コンピューター シミュレーションの本から、この 2 つの方程式を得ました。
1 つ目は、 correlogramを計算することです。2 つ目は、correlogram を使用して分散を推定する方法です。
観測値はしばしば関連しているため、観測値の分散を推定する一般的な方法は、コンピューター シミュレーションでは正しくないことがよくあります。
私の質問は、プログラムから計算した値が非常に大きいため、正しくない可能性があるということです。
k が大きくなると r[k] が 0 に近づくため、2 番目の式はかなり大きな値になると思いますが、式が間違っているのではないでしょうか?
あなたが尋ねたように、これがプログラム全体です(Pythonで書かれています):
r - 欠落データに対するRラグ
NAを所定の位置に維持するラグの変形はどこかにありますか?データが欠落している可能性のある価格データのリターンを計算したいと思います。
列1は価格データです列2は価格の遅れです列3はp-lag(p)を示します-99から104へのリターンは事実上失われるため、計算されたリターンのパス長は真とは異なります。列4は、NA位置が保持されたラグを示しています列5は、新しい違いを示しています-2009-11-07の5のリターンが利用可能になりました
乾杯、デイブ
database - 時系列データのKey-Valueストア?
私はSQLServerを使用して、1日に約100回観測された、数十万のオブジェクトの履歴時系列データを保存してきました。クエリ(時間t1と時間t2の間のオブジェクトXYZのすべての値を教えてください)が遅すぎることがわかりました(私のニーズでは、遅いのは1秒以上です)。タイムスタンプとオブジェクトIDでインデックスを作成しています。
代わりにMongoDBのようなKey-Valueストアを使用することを考えましたが、これがこの種の「適切な」使用であるかどうかはわかりません。また、そのようなものを使用することについての言及は見つかりませんでした。時系列データのデータベース。理想的には、次のクエリを実行できます。
- 時間t1と時間t2の間のオブジェクトXYZのすべてのデータを取得します
- 上記を実行しますが、1日あたり1つの日付ポイントを返します(最初、最後、時間tにクローズ...)
- 特定のタイムスタンプのすべてのオブジェクトのすべてのデータを取得する
データは順序付けする必要があり、理想的には、既存のデータを更新するだけでなく、新しいデータをすばやく書き込む必要があります。
オブジェクトIDとタイムスタンプでクエリを実行するには、最適なパフォーマンスを得るために、データベースの2つのコピーに異なる方法でインデックスを付ける必要があるようです...誰もがこのようなシステムを構築した経験があり、Key-Valueストアを使用しています、またはHDF5、または他の何か?または、これはSQL Serverで完全に実行可能であり、私はそれを正しく実行していませんか?