問題タブ [data-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - データポイントが時間どおりに一致しない時系列グラフから値を合計/スタックするアルゴリズム
グラフ作成/分析の問題があり、頭を悩ませることができません。私はブルートフォースを行うことができますが、それは遅すぎます。誰かがより良いアイデアを持っているか、Python用のスピーディーなライブラリを知っているのでしょうか。
集計(およびその後プロット)したい2つ以上の時系列データセット(x、y)があります。問題は、シリーズ全体のx値が一致しないことです。私は、値を時間ビンに複製することに頼りたくありません。
したがって、これらの2つのシリーズを考えると:
一緒に追加すると、次のようになります。
論理:
私の現在の考えは、keys(x)のソートされたリストを繰り返し、各シリーズの以前の値を保持し、xに新しいyがあるかどうか各セットにクエリを実行することです。
任意のアイデアをいただければ幸いです!
python - Matplotlibをスピードアップしますか?
私はここで、matplotlibが大きなデータセットの処理に優れていることを読みました。私はデータ処理アプリケーションを作成していて、matplotlibプロットをwxに埋め込んでいますが、速度とメモリの両方の点で、matplotlibが大量のデータを処理するのにひどいことがわかりました。入力をダウンサンプリングする以外に、matplotlibを高速化(メモリフットプリントを削減)する方法を知っている人はいますか?
matplotlibがメモリに対してどれほど悪いかを説明するために、次のコードを検討してください。
r - Rで新しい列を追加して値を集計する方法
私は gnuplot にまったく慣れていませんが、学ぶ必要があるため、これを試しているだけです。3 つの列に値があり、最初の列はファイル名 (日付と時刻、1 時間間隔) を表し、残りの 2 つの列は 2 つの異なるエンティティ Prop1 と Prop2 を表します。
最後の 4 桁の数字である時刻 (**_0100) でデータを集計する必要があります。そこで、1 日の時間を示す hour という別の列を作成したいと思います。0000 = 0h, 0100 = 1h, ...... 2200 = 22h
などを意味します。
次に、各時間の Prop1 と Prop2 の合計を取得したいので、最終的には次のようになります。
Prop1 と Prop2 のライン プロットを取得します。
r - Rを使用してボラティリティとピークを平均に取得します。インターネットトラフィックデータの比率
Rデータセットには、次の10日間の1時間ごとのネットワークトラフィックデータがあります。
ご覧のとおり、1時間以内にカテゴリの繰り返しもあります。これらのさまざまなアプリケーションカテゴリのボラティリティとピーク時と平均時の比率を計算する必要があります。
ボラティリティ:1時間あたりのボリュームを1時間あたりの平均で割った標準偏差。
平均までのピーク時間 時間比率:ボリュームに対する最大時間のボリュームの比率。そのアプリケーションの平均時間の。
では、カテゴリごとにこれら2つの統計を集計して計算するにはどうすればよいですか?私はRを初めて使用し、前述のように平均を集計して取得する方法についてあまり知識がありません。
したがって、最終的な結果は次のようになります。最初に、各カテゴリのボリュームが、ボリュームを合計してから2つの統計を計算することにより、単一の24時間で集計されます。
編集:plyrはこれまで私を手に入れました。
しかし、これは私が望んでいたことではありません。カテゴリごとの統計が必要です。ここでは、ボリュームを合計してから、ボラティリティとPA比率を計算することにより、1日のすべての時間が最初に24時間に集約されます。改善のための提案はありますか?
algorithm - 文の処理と理解
文中の単語を処理して意味を形成できる簡単なコードを書こうとしています。私は長い間、優れたアルゴリズムを開発しようとしてきましたが、それを実行しようとすると、アルゴリズムが複雑すぎて長くなる傾向があります。何か提案がありましたら、よろしくお願いします。ありがとう
mysql - データセット内の変動全体を見つける
MySQL データベースに一連のタンクの履歴データのテーブルがあります。200 ガロン/時を超えるタンク内容量の変動を検出したいと考えています。これまでの私のSQL文は次のとおりです。
上記のコードで、curtime はレコード挿入時のタイムスタンプ、tankhistid はテーブル整数の主キー、tankid は個々のタンク ID、vol は容量の読み取り値です。
データは 5 分ごとに収集され、変動には数時間 (終了列と開始列の同じ ID を持つ複数の行)、または 10 分強 (同じ開始 ID または終了 ID を持つ複数の行) かかる可能性があるため、これはあまりにも多くの結果を返します。出力例:
これらの行はすべて、7514576,7515724 の 1 つだけである必要があることに注意してください。タンクのデータの 1 日分のクエリに 4 分しかかからないため、速度が向上することも大きなメリットです。現在のクエリを取得してサブクエリとして使用する方法があると思いますが、フィルタリングの方法がわかりません。
histogram - 変動分析のアルゴリズム
私はたくさんのヒストグラムを扱っています。特に、これらのヒストグラムは、ヒトゲノム上のセグメントに沿ったベースコールのものです。
x軸に沿った各ポイントは、DNAを構成する4つの窒素塩基(A、C、T、G)の1つであり、y軸は、塩基が「呼び出された」(またはシーケンサーによって認識された)回数を表します。機械、ゲノムを配列決定するために、それは単にゲノムに沿った各塩基の同一性を決定している)。
これらのヒストグラムの多くは、プラトーのような領域から0または(ほぼ0)に低下するほぼ線形のドロップオフ(マシンが十分な読み取り深度を取得できない場合)を表示します。スコアがゼロに下がると、シーケンサーがベースのIDを判別できないことを意味します。以前に二重らせんを見たことがある場合は、シーケンサーがらせんのラングの半分の識別を理解できないことを意味します。ゲノムの特定の領域は、他の領域よりも特徴づけるのが困難です。100以上のオーダーのベースコールの数が多いベース(またはxデータポイント)は、明確に識別できます。たとえば、1つのベースに対して合計250の呼び出しがあり、248のTが呼び出され、1つのGが呼び出され、1つのAが呼び出された場合、Tと呼びます。近隣の地域から、低読み取り地域のアイデンティティが何であるかを推測する必要があります。これらのプロットにこの傾向を反映するスコアを割り当てるための簡単なアルゴリズムはありますか?組織の例については、box.net / shared/nbygq2x03uを参照してください。
serial-port - 生データ ストリーム内のデータ (圧力など) の検索
私はシリアル ポート解析の初心者であり、これに関する助けをいただければ幸いです。私の具体的な質問は...
シリアル ポート アナライザー プログラムからの生データがある場合、温度、圧力、エネルギーなどの測定値を特定するにはどうすればよいですか? これらの測定単位を識別するのに役立つ生データの何を探す必要がありますか? この生データから関連データを抽出する最良の方法は何ですか?
これに関して何かお役に立てれば幸いです。これを行う方法がわかりません。
どうもありがとう。
mysql - MySQLで列を遅らせるにはどうすればよいですか?
次の表を検討してください。
id
列は自動インクリメントされますが、ギャップが含まれています。value
列は数値です。
上記の2行に関連してvalue
設定することにより、時間の経過に伴う増加を確認したいと思います。これは、行(334)に対して行(546)を設定したい行です。したがって、行に対して計算される値は546/334=1.63473です。value
value
id=85
value
id=85
value
id=27
id=85
これは私が達成したい結果です:
MySQLでこのような遅延を実行するにはどうすればよいですか?
id
列にギャップが含まれているため、同じテーブルで単純に結合しても機能しないことに注意してくださいt1.id = t2.id - 2
。