問題タブ [prediction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
recommendation-engine - レコメンデーションシステムの新しいデータをどのように処理しますか?
ここで理論的な質問です。ユーザーベースの CF とアイテムベースの CF ( Slope Oneの形式) の 2 種類の協調フィルタリングを実装したとします。
これらのアルゴリズムを実行するための優れたデータセットがあります。しかし、次の 2 つのことを行いたいと考えています。
- データ セットに新しい評価を追加したいと思います。
- 既存の評価を編集したい。
アルゴリズムはこれらの変更をどのように処理する必要がありますか (多くの不要な作業を行うことなく)。誰でもそれで私を助けることができますか?
prediction - R 予測間隔
47 個の観測値と 5 個の変数 (男性は 0、女性は 1 としてコード化) を含むデータ セットは、平均的な地位、収入、口頭で男性を予測しようとすると、95% CI で支出します。
私はlm<-spending ~ status + income + verbal + sex, teenspend
平均を得るために私のものを使いました。私は自分の係数を次のように見つけました:
いくつかの質問: 上記の予測を使用しましたが、すべての観測値を取得しました。予測を見つけるにはどうすればよいですか?
どうか明らかにしてください?
r - Rの予測モデル、データ、および残差を示すグラフを作成する方法
2つの変数、、が与えられた場合、変数に対してdynlm回帰を実行し、変数の1つに対して近似モデルをプロットし、下部の残差をプロットして、実際のデータラインが予測ラインとどのように異なるかを示しますx
。y
私はそれが以前に行われたのを見たことがあり、以前にそれを行ったことがありますが、私の人生の間、それを行う方法を思い出せないか、それを説明するものを見つけることができません。
これにより、モデルと2つの変数がある球場に入ることができますが、必要なタイプのグラフを取得できません。
モデルと実際のデータが互いに重なり合っており、残差が実際のデータとモデルがどのようにずれているかを示す別のグラフとして下部にプロットされている、このようなグラフを生成したいと思います。
r - 時変係数を使用してコックス生存モデルから予測を行う方法
相互作用を含むサバイバル コックス モデルを作成しましたcovariate * time
(不均衡が検出されました)。モデルから生存予測を最も簡単に得るにはどうすればよいか、今疑問に思っています。
私のモデルが指定されました:
そして今、私は予測を行っている変数の組み合わせを使用survfit
して提供する予測を得ることを望んでいました:new.data
event_time_mod
モデルの右側にあるように、 に渡される新しいデータ フレームでそれを指定する必要がありますsurvfit
。これevent_time
は、予測の個々の時間に設定する必要があります。event_time_mod
の正確な時刻を 指定する簡単な方法はありますsurvfit
か? または、モデルから予測を達成するための他のオプションはありますか?
もちろん、予測とevent_time_mod
正しい値への設定に明確な時間があるので、新しいデータ フレームに同じ数の行を作成することもできますが、それは非常に面倒で、もっと良い方法があるに違いないと思いました。
r - Svm モデリング :: which.max(votematrix[, x]) のエラー: 範囲外の添え字
分類の問題があるため、R での予測に SVM を使用しています。データセットには、整数変数とカテゴリ変数があります。predict メソッドで予測中にエラーが発生しました。
今回のモデリングについて
最初 : トレーニング データセットを使用して開発されたモデル
2 番目: テスト データセットでの予測用にモデルを保存して読み込む
[サンプルデータセットのダウンロード] http://www.2shared.com/file/tQRapbBt/input_dataset3.html
【Rスクリプトを再現】http://www.2shared.com/file/NpDs5V-9/data1_train.html
誰でも提案できますか?
machine-learning - Wekaでの単一インスタンスの分類
WEKAGUIを使用してJ48モデルをトレーニングおよび作成しました。モデルファイルをコンピューターに保存しました。これを使用して、Javaコード内の単一のインスタンスを分類します。属性「クラスター」の予測を取得したいと思います。私がしていることは次のとおりです。
ただし、行にIndexArrayOutofBoundsExceptionが発生しますinst_co.setValue(latitude, lat);
。この例外の理由が見つかりませんでした。誰かが私を正しい方向に向けてくれたら幸いです。
algorithm - 過去から未来の結果を予測するニューラル ネットワークとアルゴリズム
私はアルゴリズムに取り組んでおり、入力が与えられ、それらの出力が与えられ、3か月間の出力が与えられた場合(ギブまたはテイク)、将来の出力が何であるかを見つけて計算する方法が必要です。
さて、与えられたこの問題は証券取引所に関連している可能性があり、特定の制約と特定の結果が与えられており、次を見つける必要があります。
私はニューラル ネットワークの株式市場予測に出くわしました。Googleで検索するか、ここ、ここ、ここで読むことができます。
アルゴリズムの作成を開始するには、レイヤーの構造がどうあるべきかを理解できませんでした。
指定された制約は次のとおりです。
- 出力は常に整数になります。
- 出力は常に 1 から 100 の間になります。
- たとえば、株式市場と同じように、正確な入力はありません。株価が 1 と 100 の間で変動することがわかっているだけなので、これを唯一の入力と見なす (または見なさない) 場合があります。
- 過去 3 か月 (またはそれ以上) の記録があります。
さて、私の最初の質問は、入力にいくつのノードを使用するかです。
出力は 1 つだけです。しかし、私が言ったように、入力レイヤーに 100 ノードを使用する必要があります (株価が常に整数であり、常に 1 と 100 の間であると仮定すると?)
隠れ層はどうですか?ノードはいくつありますか?ここでも 100 個のノードを使用すると、ネットワークがあまりトレーニングされないと思います。入力ごとに、以前のすべての入力も考慮する必要があるからです。
たとえば、4 か月目の 1 日目の出力を計算しているとします。非表示/中間層に 90 個のノードが必要です (簡単にするために、各月を 30 日と仮定します)。今は2つのケースがあります
- 私たちの予測は正しく、結果は予測どおりでした。
- 私たちの予測は失敗し、結果は予測とは異なりました。
いずれにせよ、4 か月目の 2 日の出力を計算するときは、90 個の入力だけでなく、最後の結果 (予測ではなく、同じです!)も必要なので、中間層/非表示層に 91 個のノードがあります。
など、ノードの数は毎日増加し続けます、AFAICT.
したがって、私の他の質問は、動的に変化する場合、非表示/中間層のノード数をどのように定義/設定するかです。
私の最後の質問は、私が気付いていない他の特定のアルゴリズム (このようなもの/もの) はありますか? このニューラル ネットワーキングをいじる代わりに、それを使用する必要がありますか?
最後に、(むしろ私が作成しているアルゴリズム) 出力を予測する原因となる可能性のある、私が見逃している可能性のあるものはありますか?
r - glm の結果をデータなしで保存する方法、または予測用の係数のみで保存する方法は?
次のRコードを使用すると、
modelfile のサイズはデータと同じくらいになり、私の場合は 1gig になります。model_glm の結果のデータ部分を削除するにはどうすればよいので、小さなファイルしか保存できません。
dataset - Weka を使用して結果を予測する方法
Weka は初めてで、このツールと混同しています。果物の価格と関連する属性に関するデータ セットがあります。データセットを使用して特定の果物の価格を予測しようとしています。Weka は初めてなので、このタスクの実行方法がわかりませんでした。予測を行う方法と、このタスクに最適な方法またはアルゴリズムについてのチュートリアルを教えてください。
machine-learning - 人気商品の提案 - タイム センシティブ データ - データ マイニング
私はデータマイニングの分野の初心者です。私は非常に興味深い Data Minign の問題に取り組んでいます。データの説明は次のとおりです。
データは時間に敏感です。アイテムの属性は、時間要素とそのクラス ラベルに依存します。毎週のデータをトレーニングまたはテスト記録の 1 つのインスタンスとしてグループ化しています。毎週、一部のアイテム属性がその人気度 (クラス ラベル) とともに変化する場合があります。
以下のようないくつかのサンプルデータ:
私の研究アドバイザーは、時間とともに変化する動的データに適応できる単純ベイズ アルゴリズムを使用することを提案しました。
2000 年から 2004 年までのデータをトレーニングとして、2005 年をテストとして使用しています。アイテム データ セットに Week-Year 属性を含めると、Naive Bayes で確率が 0 になります。データを時系列で整理した後、データ セットからこの属性を省略してもよろしいですか?
さらに、新しいテストケースを読むときにモデルを適応させる方法は? 新しいテスト ケースにより、クラス ラベルが変更される可能性があります。