問題タブ [data-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 反復値増分を使用した傾向分析
次のグラフを生成するように iReport を構成しました。
実際のデータ ポイントは青で、トレンド ラインは緑です。問題は次のとおりです。
- 傾向線のデータ ポイントが多すぎます
- トレンド ラインがベジエ曲線 (スプライン) に従っていない
問題の原因はインクリメンタ クラスにあります。インクリメンタにはデータ ポイントが繰り返し提供されます。データのセットを取得する方法はないようです。傾向線を計算するコードは次のようになります。
トレンド ラインをより滑らかで正確に表現するにはどうすればよいでしょうか?
java - 傾向線の最適曲線
問題の制約
- データセットのサイズはわかっていますが、データ自体はわかっていません。
- データ セットは、一度に 1 データ ポイントずつ増加します。
- トレンド ラインは、一度に 1 つのデータ ポイントでグラフ化されます (スプライン/ベジエ曲線を使用)。
グラフ
以下のコラージュは、かなり正確な傾向線を持つデータ セットを示しています。
グラフは次のとおりです。
- 左上。時間ごと、最大 24 のデータ ポイント。
- 右上。1 年間の日別、最大 365 のデータ ポイント。
- 左下。約 52 のデータ ポイントを使用して、1 年間の週ごと。
- 右下。1 年間の月単位で、最大 12 のデータ ポイントがあります。
ユーザー入力
ユーザーは以下を選択できます。
- 時系列のタイプ (毎時、毎日、毎月、四半期、毎年); と
- 時系列の開始日と終了日。
たとえば、ユーザーは 6 月の 30 日間の日次レポートを選択できます。
傾向の重み
ウィンドウ サイズ (つまり、トレンド ラインを計算するときに平均化するデータ ポイントの数) を計算するには、次の式を使用します。
Whereはdata points
ユーザー入力から導出され、6.4です。トレンド ウェイト6.4は適切なフィット感を生み出しますが、かなり恣意的であり、さまざまなユーザー入力には適切ではない可能性があります。trend weight
質問
この問題の制約を考えると、どのtrend weight
ように計算する必要がありますか?
.net - SQLServerのTEXT列での一般的なフレーズの検索
短い説明:
SQLAnalysisサービスまたはその他のSQLServerサービスを使用して、データセット内のSQLTEXTフィールド間の共通性を示すデータをマイニングできるかどうかを知りたいです。
長い説明
問題追跡(チケット発行)ソフトウェアのメモ列として使用される約10,000行のTEXTブロブで構成されるデータのサブセットを調べています。すべての行を解析し、[メモ]列で一般的に使用されるバイトシーケンスを見つけることができる可能性のあるものを(何かを構築することなく)すぐに使用したいと思います。言い換えれば、一般的に使用されるフレーズ(2〜3語のフレーズ、つまりTEXT BLOBの9〜20文字のセクション)を見つけたいと思います。これは、アソシエイトのメモに、トラブルシューティングプロセスフローで標準化できる類似のフレーズ(トラブルシューティング手法)が含まれているかどうかをより適切に判断するのに役立ちます。
クロージングノート
私の方法はおそらくそれを行うための最も効率的な方法ではないので、私は実際にはこれを行うためのアプリケーションを構築したくありません。
または、すぐに使用できるソリューションを誰も知らない場合は、コードで使用できる可能性のあるアルゴリズムをお勧めします。ここでは、値の配列に対して文字列の比較を行うことができます。
うまくいけば、これはすべて理にかなっています。何か説明が必要な場合は、コメントで知らせてください。
database-design - データ分析のエンジニアリング面 (OLAP、ウェアハウジング、ETL など) について学ぶためのリソース
私は数学/統計の専門家で、「データ分析」の工学的側面についてもっと学ぶことに興味があります (おそらく過度に広い用語ですが、これは間違いなく「自分の知らないことを知らない」というケースです)。そのため、より具体的にする方法がわかりません)。
データがどこかに保存されてアクセスできるようになったら、データの操作と分析に問題はありません。また、スクリプトと SQL クエリの作成にも問題はありません (正規化などの一般的な知識もあります)。私が知らないのは、データをキャプチャして保存するエンジニアリングプロセス全体です。たとえば、私が漠然と意味を理解しているだけだと聞いた用語には、次のものがあります。
- OLAP、OLTP
- データ ウェアハウス
- ETL
- ???
この種のことを学ぶのに適した本 (またはその他のリソース) は何ですか? データベース設計について知っておくべきことは何ですか?
つまり、「分析エンジニア」という総称に入る仕事について、どのようなことを知っていればよいのでしょうか?
python - 加速度計データ分析
動きの周期性、加速度のエネルギー、およびお気に入り。誰もこの種のタスクを以前に行ったことがありますか?
事前にどうもありがとうございました :)
postgresql - R を使用した PostgreSQL の非線形回帰モデル
バックグラウンド
1900 年から 2009 年までのカナダ全土の気候データ (気温、降水量、積雪量) があります。基本的な Web サイトを作成しましたが、最も単純なページでは、ユーザーがカテゴリと都市を選択できます。その後、非常に単純なレポートが返されます (パラメーターと計算のセクションはありません)。
Web アプリケーションの主な目的は、一般の人々が意味のある方法でデータを探索できるように、単純なユーザー インターフェイスを提供することです。(数字のリストは一般の人々にとって意味がありません。また、あまりにも多くの入力を提供する Web サイトでもありません。) アプリケーションの第 2 の目的は、気候学者や他の科学者にデータを表示するためのより深い方法を提供することです。(もちろん、入力が多すぎます。)
ツールセット
データベースは、R (ほとんど) がインストールされた PostgreSQL です。レポートは iReport を使用して作成され、JasperReports を使用して生成されます。
不適切なモデルの選択
現在、毎日のデータの年間平均に対して線形回帰モデルが適用されています。線形回帰モデルは、次のように PostgreSQL 関数内で計算されます。
結果は、以下を使用して JasperReports に返されます。
JasperReports は、次のパラメータ化された分析関数を使用して PostgreSQL を呼び出します。
これは最適な解決策ではありません。気候がゆっくりではあるが着実な速度で変化しているという誤った印象を与えるからです。
質問
PostgreSQL のregr_slope
.
- 適用するより良い回帰モデルは何ですか?
- そのようなモデルを提供する CPAN-R パッケージは? (理想的には、を使用してインストール可能
apt-get
です。) - PostgreSQL 関数内で R 関数を呼び出すにはどうすればよいですか?
そのような関数が存在しない場合:
- 目的のフィットを生成する関数のどのパラメーターを取得しようとする必要がありますか?
- 最適な曲線をどのように表示することをお勧めしますか?
これは一般大衆が使用するための Web アプリであることに注意してください。データを分析する唯一の方法が R シェルからのものである場合、目的は達成されていません。(これは、これまで見てきたほとんどの R 関数には当てはまらないことを知っています。)
ありがとうございました!
statistics - SPSS における回答者のペア (カップル) のリンク情報
SPSSでパートナー選択の決定要因を分析する準備をしているが、基本的には各回答者の配偶者の情報(学歴、賃金、社会性など)をもとに新たな変数をどのように作成すればよいか分からず、なかなか踏み出せない。背景、民族性など)。
現在、各回答者は ID 番号で識別され、マトリックス内の 2 つの場所に存在します: ユニット/回答者として、および配偶者 (妻または夫) として、別の列にインスタンス化されています。必要なのは、回答者としての個人に関する変数の各行からの情報を使用して、各人の配偶者の行に新しい変数を作成することです。
それが役立つ場合は、同じユニットの変数として、行ごとにリンクされたすべてのカップルを含む別のファイルもあります-明らかに「変数ファイル」と同じID番号です(ただし、昨日、これらのファイルをマージしました-うまくいけば正しく...)。
sql - テーブルから週次サマリーを検索する
私は、テーブルから週ごとの要約を見つけるためのSQLステートメントを作成するためにここにいます。次のフィールドを持つテーブルがありました。
ここで、スタッフが1週間に何時間働いたかについての情報を収集したいと思います。
statistics - 推定方法を探す(データ分析)
自分が今何をしているのかわからないので、私の言葉遣いはおかしく聞こえるかもしれません。しかし、真剣に、私は学ぶ必要があります。
私が直面している問題は、ソフトウェア プログラムの動作方法 (つまり、実行時間と最大メモリ使用量) を推定する方法 (モデル) を考え出すことです。私がすでに持っているのは大量のデータです。このデータセットは、プログラムがさまざまな条件下でどのように機能するかの概要を示します。
私はそのようなデータを何千行も持っています。ここで、すべての基準が事前にわかっている場合に、実行時間と最大メモリ使用量を推定 (予測) する方法を知る必要があります。私が必要としているのは、ヒント (上限または範囲) を与える概算です。
私はそれが典型的だと感じていますか?わからない問題。ヒントやアイデア(理論、説明、ウェブページ)、または役立つ可能性のあるものを教えてください。ありがとう!
c# - 分析サービスを使用せずに、離散データ値と連続データ値を持つデータ セットを 2 つのグループのいずれかに分割しますか?
次のスキームのテーブルがあるとします (注: この例は架空のものですが、実際の使用例は似ています)。
LikesToPartyと他の値の特定の構成との間に強い相関関係があることを私が知っているデータを手動で見る. たとえば、ミドルネームが Wells で、15 歳から 30 歳の LA 地域出身の男性は、ほぼ確実に LikeToParty に当てはまります。アンケートに回答しなかったユーザーの LikesToParty の値を予測したいと思います。
分析サービスのような高価なパッケージを購入せずに、C# を使用してこのデータをマイニングするにはどうすればよいですか? C# 用の無料のライブラリはありますか?
上記の例で説明したほとんどの機能を備えたニューラル ネットワークを既に作成しましたが、トレーニングが非常に遅く、これが正しい方法かどうかはわかりません。データをセグメント化するための、より効率的で優れた方法があるのではないでしょうか?