0

これは非常に基本的な例です。しかし、私はいくつかのデータ分析を行っており、確率テーブルを生成するために、非常によく似たSQLカウントクエリを作成し続けています。

私のテーブルは、値0はイベントが発生しなかったことを意味し、値1はイベントが発生したことを意味するように定義されています。

  > sqldf("select count(distinct Date) from joinedData where C_O_Above_prevHigh = 0 and  C_O_Below_prevLow = 0")
  count(distinct Date)
1                 1081

> sqldf("select count(distinct Date) from joinedData where C_O_Above_prevHigh = 0 and C_O_Below_prevLow = 0 and E_halfGap = 1")
  count(distinct Date)
1                  956

> sqldf("select count(distinct Date) from joinedData where C_O_Above_prevHigh = 1 OR C_O_Below_prevLow = 1 and E_halfGap = 1")
  count(distinct Date)
1                  504

上記の例では、予測変数はC_O_Above_prevHighでありC_O_Below_prevLow、結果変数はE_halfGapです。より多くの予測変数が存在する可能性があるいくつかのケースがあります。Time

上記を実行して、さまざまなパーミュレーションですべてのクエリを手動で入力するのではなく、Rまたは他のアプリケーションで利用できるものはありますか?

1)予測子に基づいて潜在的な確率パスを出力しますか?2)パスを分割する方法を選択させてください

ご意見ありがとうございます。

4

1 に答える 1

2

すべての合計と小計が必要な場合はCUBE BY、SQL(ただし、SQLiteにはありません)またはaddmarginsRで使用できます。

addmargins( Titanic )
# More readable:
ftable( addmargins( Titanic ) )

デシジョンツリーを構築する場合は、rpartパッケージを使用するか、 機械学習 または グラフィカルモデルの タスクビューを確認できます。

于 2012-04-26T08:42:57.400 に答える