問題タブ [data-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
1383 参照

excel - ソフトウェア テストに最適なインタラクティブな分析およびプロット ツールはどれですか?

私のリアルタイム アプリはデータ ログを生成します: 100 ワードのデータ @10Khz。それを分析し、結果のプロットを作成する必要があります。中間計算が必要です。差や平均などを取得する必要があります。次の場合を除いて、Excel は問題なく動作します。

  • グラフ データ シリーズの 32000 項目の制限は小さすぎます。これはわずか 3 秒のデータです。
  • 大規模なデータ系列を含むグラフへの変更を処理する氷河の速度には耐えられません。

大量のデータを操作およびプロットするための Excel の優れた代替手段は何ですか? ライブラリではなく、インタラクティブなものを探しています。

0 投票する
14 に答える
3390 参照

python - オブジェクト指向プログラミングの計算オーバーヘッド コストはいくらですか?

大規模なデータ セット (250,000 X 1,000 double のデータ キューブ、約 4 ギガバイトのファイル) があり、Python で記述した以前の OOP クラスのセットを使用して操作したいと考えています。現在、データセットはすでに非常に大きいため、マシンのメモリに読み込むには、少なくとも半分に分割する必要があるため、計算のオーバーヘッドが懸念されます。私の OOP クラスは、データを処理するために新しいオブジェクトを作成します (この場合、250,000 個の新しいオブジェクトが必要です。各オブジェクトは 1,000 個の double の配列です)。ジェネリック OOP 言語のオブジェクトを作成する際に必要なメモリとコンピューティングのオーバーヘッドはどれくらいですか? パイソンで?C++ ではどうでしょうか。

はい、配列である新しいクラスを作成できることに気付きました。しかし、1) これらのクラスはすでに完成しており、2) 後でアクセスできるように、作成した各オブジェクトを配列に戻します。質問は教育的です

*更新: 時間、自分の時間、およびコンピューターを効率的に使用したいと考えています。必要がなければ、既に持っているプログラムを書き直したくありません。また、コードの最適化に時間を費やすことは私の時間を無駄にします。コンピューターの時間を無駄にしても、それほど気にしません。私は実際に 4Gig RAM の 64 ビット マシンを持っています。データは画像であり、各ピクセルでいくつかのフィルターを実行する必要があります。*

0 投票する
3 に答える
374 参照

unit-testing - 単体テスト...ここで使用する必要がありますか?

重複: https://stackoverflow.com/questions/135651/learning-unit-testing


私の研究グループが実験データを分析してプロットするためのソフトウェアを開発しようとしています。かなりエラーのないところにしたいと思います。これは単体テストの状況でしょうか? もしそうなら、ユニットテストのためのいくつかの良い参考文献を教えていただけますか?

0 投票する
6 に答える
167 参照

math - オーバーフローの検出と修正

16ビットおよび8ビットのバッファを使用するように配線された粒子検出器があります。時々、それを通過する粒子フラックスの特定の[予測された]ピークがあります。大丈夫。大丈夫ではないのは、これらのフラックスは通常、それらを保存するためのバッファーの容量を超える大きさに達するということです。したがって、オーバーフローが発生します。チャート上では、フラックスが突然低下し、再び成長し始めているように見えます。オーバーフローが発生しているデータのポイントを[ほぼ]正確に検出する方法を提案できますか?

PS検出器は物理的にアクセスできないため、バッファを交換して「正しい方法」で修正することはできません。

更新:要求に応じていくつかの説明。データ処理施設ではPythonを使用しています。検出器自体で使用されているテクノロジーはかなりあいまいです(完全に無関係なサードパーティによって開発されたものとして扱います)が、それは間違いなく洗練されていません。つまり、「実際の」OSを実行しておらず、記録するための低レベルのものだけです。検出器の読み取り値と、電源の入れ直しなどのリモートコマンドに応答します。現在、メモリの破損やその他の問題は問題ではありません。オーバーフローは、検出器の設計者が粒子フラックスのカウントに16ビットバッファーを使用したために発生し、フラックスが1秒あたり65535粒子を超える場合があります。

更新2:何人かの読者が指摘しているように、意図された解決策は、フラックスプロファイルを分析して、通常の変動からそれらを分離する試みで、急激な低下(たとえば1桁)を検出することと関係があります。別の問題が発生します:復元(元のフラックスがオーバーフローレベルを下回るポイント)は、元に戻された(x軸による)フラックスプロファイルに対して補正プログラムを実行するだけで検出できますか?

0 投票する
1 に答える
825 参照

python - 確率時系列、観測データの確率(既視感)

わかりました皆さん...この質問を見てくれてありがとう。大学で以下のことをしたことを覚えていますが、正確な解決策を忘れていました。正しい方向に舵を切るテイカー。

N のデータの時系列 (3 つを使用します) があります。データ系列は時間順に連続しています (たとえば、obsOne[1] は obsTwo[1] および obsThree[1] と共に発生しました)。

obsOne[47, 136, -108, -15, 22, ...], obsTwo[448, 321, 122, -207, 269, ...], obsThree[381, 283, 429, -393, 242, ...]

ステップ 2. データ シリーズから、データ シリーズごとに幅 Z の一連の X レンジ ビンを作成します。(観測 obsOne の例: bin1 = [<-108, -108] bin2 = [-108, -26] bin3 = [-26, 55] ... binX = [136, > 136]

ステップ 3. 次に、データ系列のすべての可能な組み合わせを含むテーブルを作成します。したがって、4 つのビンと 3 つのデータ系列がある場合、すべての組み合わせは合計 4x4x4 = 64 の可能な結果になります。(たとえば、row1 = obsOne bin1 + obsTwo bin1 + obsThree bin1、row2 = obsOne bin1 + obsTwo bin1 + obsThree bin2、... row5 = obsOne bin1 + obsTwo bin1 + obsThree binX、row6 = obsOne bin1 + obsTwo bin2 + obsThree bin1、row7 = obsOne bin1 + obsTwo bin1 + obsThree bin2、row9 = obsOne bin1 + obsTwo bin2 + obsThree binX、...)

ステップ 4. データ系列に戻り、データ系列の各行がテーブルのどこに該当するかを調べ、観測が何回該当するかを数えます。(例: obsOne[2] obsTwo[2] obsThree[2] = テーブルの行 30、obsOne[X] obsTwo[X] obsThree[X] = テーブルの行 52。

ステップ 5.次に、テーブルで正の一致がある行のみを取得し、その行に含まれる観測値の数を数え、データ系列の観測値の総数で割ります。これにより、観測されたデータのその範囲の確率が得られます。

数学の専門家ではなく、この基本的な質問で申し訳ありません。私は何年も前にこれを行いました。どの方法を使用したか忘れましたが、この長い (古代の「手動」) 方法よりもはるかに高速でした。当時、私は python を使用していませんでした。それは、C++ の他の独自のパッケージでした。この問題を Python (現在は Python ショップ) で解決できる何かが存在するかどうかを確認したいのですが、いつでも拡張できるので、それはソフトな制約です。

0 投票する
1 に答える
158 参照

semantics - ユーザー生成データの定性分析にはどのような情報分析手法がありますか?

データの並べ替え、最大値と最小値の検索、ノード間の最短パスの検索などのために、いくつかのアルゴリズムがあります。

私はユーザー生成データの定性分析を調べ始め、潜在意味解析に出くわしました。テキストデータの分析には他にどのような手法がありますか...そしておそらく他のメディアですか?

0 投票する
4 に答える
880 参照

sql-server - ダッシュボード表示用のSQLサーバーデータからリアルタイムの*財務*統計エンジンを実装するにはどうすればよいですか?

現在、Excelの自動化を使用して時系列統計を計算し、その結果をSQL Server 2008データベースに保存して、表示や並べ替えなどを簡単に行っています。後で。

現在、アプリのホーム画面を再設計して、最も重要な情報(アプリを使用しているチームによって識別されたもの)をダッシュ​​ボード形式で表示しています。リアルタイムで表示したいのですが。データは頻繁に追加されることはありませんが、深刻なデータ処理が必要になります。

UXが設計されたら、どこに実装すればよいですか?
サーバー側、クライアント側?F#は、このタイプのデータ処理に最適な言語のように見えます。開発者を雇うつもりですが、このルートに進む前に、使用できるツールが他にもあると考えなければなりません。

あなたの提案をありがとう。

0 投票する
2 に答える
1003 参照

excel - MSExcelのようなデータ分析ツール

比較する必要のあるデータがたくさんあります。MicrosoftEXCELを使用していますが、コストがかかり、生成されるグラフも十分ではありません。さて、彼らの他のツールは無料で、優れたグラフ機能を備えています。

ありがとうございました。

0 投票する
4 に答える
9902 参照

python - numpy/scipy を使用して欠損データをどのように処理しますか?

私がデータ クリーニングで最もよく扱うことの 1 つは、欠損値です。R は、「NA」欠損データ ラベルを使用してこれを適切に処理します。Python では、マスクされた配列を処理する必要があるようです。これは、セットアップが非常に面倒で、十分に文書化されていないようです。このプロセスを Python で簡単にするための提案はありますか? これは、データ分析のために Python に移行する際の障害になりつつあります。ありがとう

更新numpy.ma モジュールのメソッドを見てから明らかにしばらく経ちました。少なくとも基本的な分析関数はマスク配列で使用できるようです。提供された例は、マスク配列の作成方法を理解するのに役立ちました (著者に感謝します)。Python の新しい統計手法 (今年の GSoC で開発されている) のいくつかにこの側面が組み込まれているかどうか、少なくとも完全なケース分析を行っているかどうかを確認したいと思います。

0 投票する
12 に答える
7677 参照

image-processing - データのパターンを認識するための最善のアプローチと、そのトピックについてさらに学ぶための最良の方法は何ですか?

私が一緒に働いている開発者は、舗装の画像を分析して舗装の亀裂を見つけるプログラムを開発しています。彼のプログラムが見つけた亀裂ごとに、その特定の亀裂を構成するピクセルを示すエントリがファイルに生成されます。ただし、彼のソフトウェアには 2 つの問題があります。

1) いくつかの偽陽性を生成します

2) ひびを見つけた場合、その小さな部分だけを見つけて、それらの部分を別々のひびとして示します。

私の仕事は、このデータを読み取って分析し、偽陽性と実際の亀裂を区別するソフトウェアを作成することです。また、クラックのすべての小さなセクションを 1 つにグループ化する方法も決定する必要があります。

偽陽性を排除するためにデータをフィルタリングするさまざまな方法を試し、クラックをグループ化するためにニューラル ネットワークを使用して、ある程度の成功を収めました。エラーが発生することは理解していますが、現時点ではエラーが多すぎます。私のタスクを達成するための最善の方法、またはそれについてもっと学ぶための、AI 以外の専門家のための洞察を誰かが持っていますか? どのような本を読むべきか、どのような授業を受けるべきか?

編集私の質問は、同僚のデータのパターンに気づき、それらのパターンを実際の亀裂として識別する方法についてです。私が関心を持っているのは高レベルのロジックであり、低レベルのロジックではありません。

編集実際には、私が扱っているデータを正確に表現するには、少なくとも20枚のサンプル画像が必要です。それは大きく異なります。しかし、ここここ、そしてここにサンプルがあります。これらの画像は、同僚のプロセスによって既に処理されています。赤、青、および緑のデータは、分類する必要があるものです (赤は暗い亀裂、青は軽い亀裂、緑は広い/封印された亀裂を表します)。