問題タブ [data-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2601 参照

python - 間隔の日時値を任意の頻度の時系列に変換します

私は次のデータ構造を持っています:

これは、開始日終了日、および(日付の間に記録されたいくつかのメトリック)の間隔です。

さらにデータを分析するには、必要な頻度で時系列を生成する必要があります。 月次/日次/時間ごと/30分ごとの時系列です。たとえば、1時間ごとのデータ:

この種のデータ変換を実装するのに役立つPythonライブラリはありますか?

0 投票する
1 に答える
512 参照

matlab - 機械学習を使用した予測/遅延予測?

過去5年間のデータセットがあります。バイナリ {yes/no} またはマルチクラス {product A, B, C} であるフィーチャを含む約 7000 行のデータ 合計で約 20 以上のフィーチャ。

この履歴データに基づいて製品の出荷日 (出荷遅延日数) を決定 (予測) するプログラム (または 1 回限りの分析プロジェクト) を作成しようとしています。製品がいつ出荷される予定だったかを示す 2 つの列と、実際にいつ出荷されたかを示すもう 1 つの列があります。現在。

製品の新しいデータ入力がいつ出荷されると予想されるかを履歴データに基づいて決定する予測プログラムをどのように作成できるか疑問に思っています。特定の日付を取得することは気にしませんが、追加する遅延日数を教えてくれるプログラムだけでも...

少し前に ML クラスを受講しましたが、このようなことを開始する方法がわかりませんでした。何かアドバイス?さらに、私が考えることができるこれに最も近いのは、NN を使用した画像認識の割り当てです。しかし、ここでは簡単すぎて、ピクセルの白/黒の代わりに日付を処理する必要があります.... 昔はMatlabを使用していましたが(まだ使用方法を知っています)、Wekaデータマイニングツールをダウンロードしました。

ニューラル ネットワークを考えていましたが、入力された出荷日から予想される遅延時間 (日数/月) をプログラムで取得するように設定する方法がわかりません。

基本的、

入力したい (サイズ = 5、製品 = A、....、出荷予定日 = 1 月 1 日)

そして、プログラムは、過去の傾向を考慮して、出荷予定日に遅延として追加する日数を返します...

このようなものを正しい/最も簡単な/最良の方法で開始する方法について何か助けていただければ幸いです...事前に感謝します。

0 投票する
2 に答える
689 参照

r - 不均一な時間間隔での MSD の計算

x 座標と y 座標を持つ 2 つの列を持つ行列があります。すべての時間間隔が等しいと仮定して、平均二乗変位を計算したいと思います.

したがって、作業式は次のとおりです。

MSD=average(r(t)-r(0))^2 where r(t) is position at time t and r(0) is position at time 0.

したがって、これを計算するために使用しているコードは次のとおりです。

これmatは、x 値と y 値の行列です。

したがって、この式は、連続する 2 つのポイント間の時間が一定である場合に機能します。しかし、2 つの座標間の時間が異なると仮定すると、どのようにその成分を組み込んで MSD を計算できますか?

0 投票する
1 に答える
107 参照

algorithm - 一定量の共通の子ノードを持つノードのグループを抽出する方法

クイズを解いていて、アドバイスが必要です。

クイズの概要は次のとおりです。

ブックマークサービス(delicious、digg ...など)のデータを分析し、2つ以上の一般的なタグを持つURLのグループを抽出します

  1. 各ブックマークデータには、1)user-id、2)url、および3)タグの配列が含まれています。
  2. すべてのタグのサイズは、すべてのURLと比較して比較的小さいです。つまり、人々は限られたセットでサイトをブックマークします
  3. URLに割り当てられたすべてのタグが異なります
  4. 異なるユーザーが同じURLをブックマークした場合は、それらからグループを作成しないでください(ただし、これはオプションの条件です。user_idを無視して、すべてのURLが異なると想定できます)。

例:

次の2つのURLグループが結果になります

(siteA、siteB、siteD)は2つの共通タグ(tag1、tag2)を共有し、(siteA、siteC)も2つの共通タグ(tag1、tag3)を共有するためです。

--条件3,4および例が追加されました。ありがとう@btilly。

私の質問は

  1. どのように解決できるか(またはどのアルゴリズムを適用できるか)、実際に高速ですか?
  2. この質問と同様のアルゴリズムで解決できる代表的な問題はありますか?
0 投票する
1 に答える
2095 参照

machine-learning - Weka 予測 (パーセンテージ信頼度) - どういう意味ですか?

私は独学で Weka を学び、モデルを構築してそこから予測を得る方法を学びました (CLI を使用した予測)。

以前に構築されたモデルのデータセットで予測を実行すると、予測された各インスタンスの予測信頼度とも呼ばれる「予測」である列が得られます。

信頼度の意味はわかりますが、すべての予測が Weka モデルの精度であってはなりませんか?

別名、精度が 90% の J48 決定木分類子がある場合、このモデルを使用して分類されたすべてのインスタンスの予測信頼度は 90% ではないでしょうか?

このパーセンテージ信頼度がどのように計算されるか、または自分のモデルについて他の人に伝えるときにエラー予測とモデル精度をどのように読み取るべきかを知っている人はいますか? ありがとう

0 投票する
1 に答える
128 参照

python - 異常なフィッティングアルゴリズムの最適化

ランダムに分散された実験データの2つの異なるセットがあります。それぞれの値に何らかの関数を適用して、分布の1つを別の分布にできるだけ類似させる必要があります。関数の例:F(x)= x *(1+(x + p1)* p2、ここでp1とp2は任意のパラメーターです。可能かどうか、可能であれば、p1のどの値を使用するかを確認します。そしてp2、私は簡単なpythonスクリプトを書きました:

私は、考えられるすべての方法の中で、これが最も醜くて最も遅い方法であることを理解しています。残念ながら、私にはプログラミングのバックグラウンドがまったくなく、これが私の最初の謙虚な努力です。結果の分布の平均値が既知の定数であることを考えると、適切なp1-p2ペアの数は非常に限られていますが、ここでは単純なブルートフォースを使用します。p2をp1の関数として表現する方法があるはずだと思いますが、どうすればいいのか全くわかりません。多分あなたは私にいくつかの考えを投げることができますか?
私の悪い英語でごめんなさい...

0 投票する
1 に答える
1098 参照

r - データのビニングとヒストグラムのプロット

値のリストがあります(これらは正の値と負の値です)。例として、私は35000の数字を持っていると言います(+ veと-veの両方が含まれています)。

私がやりたいのは、それらをビンに入れることです。つまり、0〜200(-200〜0)、201〜400(-400〜201)などの数値を48,800〜50000(- 50000〜48,500)。

これらの値を取得すると、ヒストグラムやその他の表現のプロットが簡単になります。私はこれをPython、PERL、またはRで優れたものにするかプロットするために使用できます。

しかし、最初の段階自体は少し注意が必要です。

例として、次のデータを検討できます。

ありがとうございました

0 投票する
2 に答える
1471 参照

python - メモリに収まらないデータの分析

分析する必要がある生のテキストを含むデータベースがあります。たとえば、何億もの個々の Web ページのタイトル タグを収集し、トピックに基づいてそれらをクラスタ化しました。現在、各トピック クラスタのサブセットに対して追加のテストを実行することに関心があります。問題は 2 つあります。まず、すべてのテキストをメモリに収めて評価することはできません。次に、これらの分析のいくつかを並行して実行する必要があるため、サブセットをメモリに収めることができたとしても、多くのサブセットをメモリに収めることはできません。

私はジェネレーターを扱ってきましたが、多くの場合、既に読み込まれて評価されたデータの行に関する情報を知る必要があります。

私の質問は次のとおりです。メモリに収まらないデータを処理および分析するための最良の方法は何ですか。データは何らかのデータベースから抽出する必要があります (現在は mysql ですが、すぐにより強力なソリューションに切り替える可能性があります)。

Pythonでデータを扱うソフトウェアを構築しています。

ありがとうございました、

編集

私はこれについて一日中調査し、ブレインストーミングを行い、私の考えや発見を投稿し続ける予定です. ご意見やアドバイスをお寄せください。

アイデア 1: 単語と n-gram をトークン化し、ファイルに保存します。データベースから取得した文字列ごとに、既存のファイルのトークンを使用してトークン化します。トークンが存在しない場合は作成します。単語トークンごとに、文字列内のすべての単語の単一表現が存在するまで、右から左に結合します。縮小されたトークンで構成される既存のリスト (メモリに収まる) を検索して、潜在的な一致と類似を見つけます。削減された各トークンには、トークン カテゴリを示す識別子が含まれます。縮小されたトークン (単語トークンの組み合わせによって作成されたトークン) が、関心のあるトークン化された文字列に対してカテゴリ的に一致するが直接一致しないことが判明した場合、縮小されたトークンは対応するトークンに分解され、単語トークンが単語ごとに比較されます。関心のある文字列へのトークン。

これを行うことができるライブラリまたはモジュールが既に存在するかどうかはわかりません。また、それからどれだけの利益が得られるかもわかりません。ただし、私の優先事項は次のとおりです。1) メモリを節約する、2) ランタイムを心配する。考え?

編集2

Hadoop は間違いなくこの問題の解決策になるでしょう。Python と Hadoop の自然言語処理に関する優れたリソースをいくつか見つけました。下記参照:

  1. http://www.cloudera.com/blog/2010/03/natural-language-processing-with-hadoop-and-python
  2. http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf
  3. http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python
  4. https://github.com/klbostee/dumbo/wiki/Short-tutorial

ご協力いただきありがとうございます!

0 投票する
3 に答える
1490 参照

r - R でのグラフィカル ユーザー インターフェイスの作成

現在、R でデータ分析を行っています。最終的には、分析の概要とメイン プロットを表示できる GUI を作成したいと考えています。R を使用してインターフェイスを作成できるかどうかを知っている人はいますか? そうでない場合、MATLAB (GUI 用) と R を組み合わせることができるかどうか知っていますか?

ご協力ありがとうございます。

前もって感謝します!

0 投票する
1 に答える
3336 参照

matlab - csv 形式の matlab/gephi

私は数日間、トリッキーなデータセットで k-means とファジー c の両方を使用しており、結果はまあまあですが、グラフィカルな出力を視覚化して操作したいので、すばらしい視覚化ツールGephiを見つけました。メイン ページの画像をクリックすると、視聴できるビデオが読み込まれます。

ここのgephisがサポートするグラフ形式のページには、可能なインポート形式のリストがあります。

matlab を見ると、クラスター データを出力できる形式は csv である可能性があります。ここのgehpisサイトでは、フォーマット、エッジリスト、混合、マトリックスについて説明しています。

彼らが何を意味するのか本当にわかりません。matlab で FCM を使用すると、3 つの出力centerUおよびobjFunが得られます。

したがって、私の質問は、このデータから必要な形式で CSV ファイルを作成するにはどうすればよいかということです。

https://gephi.org/users/supported-graph-formats/spreadsheet/

http://forum.gephi.org/viewtopic.php?t=1896

この視覚化ツールは私がこれから使用したいものであり、これがどのように行われるかを説明するスタックに関する質問はまだないため、100 ポイントを支援できる人には報奨金を与えます。したがって、将来およびgephi/matlabユーザーのコミュニティに役立つ可能性があります.