問題タブ [apriori]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - データマイニング手順のためにデータを分類するにはどうすればよいですか?
関数を使用して、データマイニング手順を実行していapriori
ます。この関数は、値ではなくテキストのみのカテゴリ データでのみ機能します。5 つのカテゴリ変数があり、数値はなくテキストのみであるため、データセットはこれらの要件を満たしています (したがって、変数「性別」は「女性」と「男性」に分類されます)。
関数を試してみるとapriori()
、次のエラーが表示されます。
エラーasMethod(object)
:
私のデータはカテゴリーに見えますが、R はそれを理解していません。apriori 関数が機能するように、たとえば as.factor 関数を使用してデータを適切に分類するにはどうすればよいですか?
r - r のデータ フレームをトランザクションまたは itemMatrix に変換しますか?
data.frame
変換したい形式のデータがありますtransactions
またはitemMatrix
.
これらの 2 つのデータ形式をサポートする関数を検査するarules
ため、この質問をしています
data-mining - 長さ 2 のアイテム セットのパターン マイニング
長さ 2 の頻繁なアイテム セットのみをマイニングできるアソシエーション マイニング アルゴリズムを探しています。2アイテムセットで停止する場合、頻繁に使用されるアイテムを計算するためにデータベースのクエリを使用する方が良いですか?
transactions - トランザクションでアイテムが重複する頻度の高いアイテムセットを計算する
背景頻繁にアイテムセットをマイニングする例のほとんどは、固有のアイテムとのトランザクションを持っています。たとえば{1,2}, {1,3}, {2,3,5,6}, {6}
。トランザクションの重複が結果に影響するかどうか知りたいです。例えば{1,2,1}, {2,2,3}, {4,3}, {4,1,2,4,2,6}
質問アプリオリ アルゴリズムを使用すると、トランザクション データベースでの 1 アイテムのサポートは何になります{1,2,1}, {2,2,3}, {4,3}, {4,1,2,4,2,6}
か? 結果は次のようになると思います。
algorithm - 頻度の高いアイテムセット マイニングのパフォーマンス
頻繁に使用するアイテムセットをマイニングするためのアプリオリ アルゴリズムを実装しましたが、サンプル データでは問題なく動作しますが、 http://fimi.ua.ac.be/data/retail.datで入手できる小売データセットに対して実行しようとすると、約 3 MB のデータになります。 88,000 のトランザクションと 1600 のユニークなアイテムで、約 29 時間かかります。パフォーマンス ヒットの原因を調べたところ、候補アイテムセットを生成するアルゴリズムに時間がかかっていることがわかりました。パフォーマンスを改善する方法について誰か助けてもらえますか、それともこれらは通常のアルゴリズムの動作ですか。
r - rで組み合わせを印刷する方法は?
このようなデータを含むデータコードがあります
dat<-data.frame(A=c("V1","V2","V3","V4"), B=c("V1","V2","V3","V5"))
それぞれの組み合わせと印刷出力を
Aの出力
V1=>V2V3V4
V2=>V1V3V4
V3=>V1V2V4
V1V2=>V3V4
V1V3=>V2V4
V3V4=>V1V2
V2V4=>V1V3
V2V3V4=>V1
V1V3V4=>V2
V1V2V4=>V3
同様の方法Bの組み合わせ私のコードは
このコードは機能していません。複数の組み合わせを単一に保存できませんdata.frame
。それが問題です
r - クラスタリング変数
R で簡単に実装できる、大規模で高次元のバイナリ データセット (200,000 以上の行と 150 以上のフィールドを考えてください) 内で高度に相関する変数のグループを見つけるための実証済みの方法は何ですか? 解釈に役立つ変数のグループ化を見つけたいので、PCAが最良の方法になるとは思いません。