問題タブ [data-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache - Apache ログから uv(Unique Visitor) の数を取得する方法
ApacheログからUV番号を取得する方法の分析アルゴリズムを知りたいです。このようなログ:
ありがとう。
または、awstats や webtrends がユニークな訪問者を獲得するためにどのように機能するかを知っている人。
awstats( http://awstats.sourceforge.net/docs/awstats_glossary.html ) では、ユニーク ビジターは IP アドレスで追跡されるため、複数のユーザーが同じ IP (自宅やオフィス ネットワーク)、それらは 1 人の一意の訪問者としてカウントされます。詳細については、こちらhttp://digdeeply.info/archives/03191870.html
statistics - 悪いビデオストリームを検出する方法
ストリーミングビデオサイトでデータ分析を行おうとしています。問題が自分の側にあるのかユーザーの側にあるのかを判断するために、ストリームの帯域幅の平均と標準偏差の収集を開始しました。私がよくわからないのは、通常のストリームがどのように見えるかを決定する方法です。
通常のストリームがどのように見えるかを理解するために、私は次のものを見つけることを考えていました。
- 平均値-通常の帯域幅とは
- StdDevofMeans-人口の帯域幅はどのくらい変化しますか
- StdDevsの平均-通常の変動量はどれくらいですか
- StdDevsのStdDev-平均StdDevはどのくらい変化しますか
これらの統計は意味がありますか?
基本的に、私は低帯域幅や高可変帯域幅などを探して、不良ストリームを検出しようとしています。したがって、いくつかのベースラインを見つけて、外れ値を探すことができると考えました。
また、各サンプルのすべてのデータを保持することは現実的ではないため、集合体統計のみを処理できます。他に何かあれば、ログに記録することをお勧めします。これも大きな助けになります。
mysql - MySQLセット内の2つのログエントリ間の時間差を選択するにはどうすればよいですか?
分析を行う必要のあるログエントリのセットがたくさんあります。私がやりたいのは、ログのセットごとに、開始エントリと完全なエントリの間の時間差を選択することです。どうすればこれを行うことができますか?
matlab - MatLabのデータセットの最大点と最小点
こんにちは私は、30秒間にわたって繰り返されるエクササイズの最大値と最小値のみを使用して、MatLabでマトリックスを作成する方法を見つけようとしています。
たとえば、データセットがある場合:
私が望んでいた結果は次のとおりです。
この関数は、絶えず変化する波形のピーク値のみをプロットします。
私が試したコードは次のとおりです。
事前に返信してくださった方に感謝します。
ジャレド。
matlab - 添え字のインデックスは、実数の正の整数または論理値のいずれかでなければなりません。MatLab での findpeaks の使用
私はMatLabでfindpeaksを使用して波形の最大点と最小点を問題なく見つけてきましたが、過去20分ほどでエラーが発生しました:
??? 添え字のインデックスは、実数の正の整数または論理値のいずれかでなければなりません。
理由がわかりません。テスト データを使用して簡単な演習を試みても、同じエラーが発生しました。たとえば、データセットがある場合:
コードを使用しました:
私は結果を期待します:
しかし、何らかの理由で、これはもはや当てはまりません。
お知らせ下さい。
r - R では、多数の変数を使用して重回帰を実行した後、重要な変数だけを抽出する方法
R で重回帰を実行した後、回帰の要約は重要な変数を星で示します。私が取り組んでいるデータセットには 2000 近くの変数があり、R によって識別される重要な変数には 50 を超える変数が含まれています。回帰の要約から、重要な変数のリストを単独で取得する方法はありますか?
r - 2つのテーブルをリンクし、関連付けテーブルを探す
私はr-studioで作業しており、すでにロードされている2つのテーブルをリンクしてから、相関ルールを探しています。
セットアップ:
2つのデータテーブルがあります。
- [user.id、rating、timestamp]フィールドを持つ「uData」
- [user.id、age、gender、occupation]のフィールドを持つ「uUser」
uDataでは、各ユーザーは複数回表示される可能性がありますが、uUserでは、各ユーザーは1回だけリストされます。r-studiosインポートデータセットを使用してデータをロードしました。arules、datasets、graphics、grDecies、lattice、Matrix、methods、stats、およびutilsパッケージを使用しています。
最終目標:
評価、年齢、性別の相関ルールを見つける
Q1
uDataテーブルを反復処理し、uUserから各行の年齢と性別を取得する必要があると思います。新しいテーブルを作成する方法や、最終目標を達成するために新しいテーブルが必要かどうかがわかりません。
Q2
最終的な目標は、相関ルールを見つけようとすることです。私は使用しようとしています
ルール<-apriori(_ _、parameter = list(supp = .5、conf = .9、target = " _ "))
いくつかのチュートリアルを調べた後、ダミーデータで機能するようになりましたが、ロードしたデータでは機能しません。各行にトランザクションのラベルを付ける方法がわかりません。私が試してみました
トランザクション=read.transactions(uUser)
しかし、これには警告があります。どんな助けでも大歓迎です。
uDataからのデータの数行は次のとおりです。
uUserからのデータの数行は次のとおりです。
python - 間隔の日時値を任意の頻度の時系列に変換します
私は次のデータ構造を持っています:
これは、開始日、終了日、および値(日付の間に記録されたいくつかのメトリック)の間隔です。
さらにデータを分析するには、必要な頻度で時系列を生成する必要があります。 月次/日次/時間ごと/30分ごとの時系列です。たとえば、1時間ごとのデータ:
この種のデータ変換を実装するのに役立つPythonライブラリはありますか?
matlab - 機械学習を使用した予測/遅延予測?
過去5年間のデータセットがあります。バイナリ {yes/no} またはマルチクラス {product A, B, C} であるフィーチャを含む約 7000 行のデータ 合計で約 20 以上のフィーチャ。
この履歴データに基づいて製品の出荷日 (出荷遅延日数) を決定 (予測) するプログラム (または 1 回限りの分析プロジェクト) を作成しようとしています。製品がいつ出荷される予定だったかを示す 2 つの列と、実際にいつ出荷されたかを示すもう 1 つの列があります。現在。
製品の新しいデータ入力がいつ出荷されると予想されるかを履歴データに基づいて決定する予測プログラムをどのように作成できるか疑問に思っています。特定の日付を取得することは気にしませんが、追加する遅延日数を教えてくれるプログラムだけでも...
少し前に ML クラスを受講しましたが、このようなことを開始する方法がわかりませんでした。何かアドバイス?さらに、私が考えることができるこれに最も近いのは、NN を使用した画像認識の割り当てです。しかし、ここでは簡単すぎて、ピクセルの白/黒の代わりに日付を処理する必要があります.... 昔はMatlabを使用していましたが(まだ使用方法を知っています)、Wekaデータマイニングツールをダウンロードしました。
ニューラル ネットワークを考えていましたが、入力された出荷日から予想される遅延時間 (日数/月) をプログラムで取得するように設定する方法がわかりません。
基本的、
入力したい (サイズ = 5、製品 = A、....、出荷予定日 = 1 月 1 日)
そして、プログラムは、過去の傾向を考慮して、出荷予定日に遅延として追加する日数を返します...
このようなものを正しい/最も簡単な/最良の方法で開始する方法について何か助けていただければ幸いです...事前に感謝します。
r - 不均一な時間間隔での MSD の計算
x 座標と y 座標を持つ 2 つの列を持つ行列があります。すべての時間間隔が等しいと仮定して、平均二乗変位を計算したいと思います.
したがって、作業式は次のとおりです。
MSD=average(r(t)-r(0))^2 where r(t) is position at time t and r(0) is position at time 0.
したがって、これを計算するために使用しているコードは次のとおりです。
これmat
は、x 値と y 値の行列です。
したがって、この式は、連続する 2 つのポイント間の時間が一定である場合に機能します。しかし、2 つの座標間の時間が異なると仮定すると、どのようにその成分を組み込んで MSD を計算できますか?