問題タブ [apriori]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
186 参照

ruby - 最後のアイテムだけが異なる頻出アイテムセットのすべてのペアを見つける

アプリオリ アルゴリズムを実装しようとしていますが、候補アイテムセットを生成する方法を書くのに問題があります。この機能のスクリーンショットを次に示します。 ここに画像の説明を入力

主な問題は2行目から5行目です。f1 と f2 の取得方法がわかりません。f1 と f2 は最後の項目が異なる配列であり、f1 の最後の項目は f2 の最後の項目よりも小さいです。

Rubyでこれを書く方法を知っている人はいますか?

0 投票する
2 に答える
621 参照

python - 巨大なサンプル空間でデータのタプルをマイニングするためのアルゴリズム

Apriori アルゴリズムを使用して、一連のタプルのようなデータセットから関連付けルールをフェッチすることを読みました。最も頻繁に使用される 1 アイテム セット、2 アイテム セットなどを見つけるのに役立ちます。私の問題は少し異なります。次のように、それぞれがさまざまなサイズのタプルのセットであるデータセットがあります。

(1, 234, 56, 32) (25, 4575, 575, 464, 234, 32) . . . 異なるサイズのタプル

エントリのドメインは巨大です。つまり、各タプルのバイナリ ベクトルを取得できず、タプルに項目「x」が存在するかどうかがわかります。したがって、ここでは Apriori アルゴリズムが適しているとは思えません。

私の目標は、次のような質問に答えることです。

  1. ほとんどの場合 234 で発生する 5 つの数字のランク付けされたリストを教えてください
  2. 最も頻繁に同時に発生する、サイズ「k」の上位 5 つのサブセットを教えてください

要件 : 出力における数値の正確な表現 (概算ではない)、数値のドメインは 10 億から 10 億と考えることができます。

ここに標準アルゴリズムが適合しない場合は、単純なカウント方法を使用する予定です。しかし、私を助けることができるアルゴリズムを知っているなら、私に知らせてください

0 投票する
2 に答える
3096 参照

data-mining - デシジョンツリーvsナイーブベイズvsアプリオリアルゴリズムと重回帰モデル

これらのアルゴリズムの違いは何ですか?デシジョンツリー-ナイーブベイズ-アプリオリアルゴリズム-重回帰モデル

0 投票する
1 に答える
2437 参照

algorithm - アプリオリなアルゴリズム - A->B と B->A のアプリケーション ルールの違い

A->B と B->A のアプリケーション ルールの違いは何ですか。

トランザクション データベースがこのような場合、

T1 パン、ゼリー、バター

T2 パン、バター

T3 パン、バター、ミルク

T4 ビール、パン

T5 ビール、牛乳

パン - >バターとバター - >パンのサポートと信頼を計算する方法..?

みんな助けてください..

0 投票する
2 に答える
4417 参照

algorithm - 頻繁なアイテムセットと相関ルール-Aprioriアルゴリズム

データマイニングで使用するApriori(バスケット)アルゴリズムの基礎を理解しようとしています。

私が抱えている合併症を例を挙げて説明するのが最善です。

トランザクションデータセットは次のとおりです。

上記のminsupは0.5または50%です。

上記から、私のトランザクション数は明らかに7です。つまり、アイテムセットが「頻繁」であるためには、4/7のカウントが必要です。そのため、これは私の頻繁なアイテムセット1でした。

F1:

次に、2番目の改良(C2)の候補を作成し、次のように絞り込みました。

F2:

これは私が混乱するところです、私がすべての頻繁なアイテムセットを表示するように頼まれた場合、私はすべてを書き留めますかF1F2それとも単に書き留めF2ますか?F1私にとっては「セット」ではありません。

次に、定義したばかりの頻繁なアイテムセットの相関ルールを作成し、それらの「信頼度」の数値を計算するように求められます。次のようになります。

アイテムセットをここに入れるのは不必要に思えF1ます。アイテムセットはすべて100%の信頼性があり、実際には何も「関連付け」られないためです。これが、F1実際に「頻繁」であるかどうかを疑問視している理由です。

0 投票する
2 に答える
8445 参照

weka - Weka - すべての値が欠落している属性を削除するには?

マーケット バスケット分析用のデータを含む CSV ファイルがあります。ファイルを Weka に正常にインポートしましたが、一部の属性に値がないことがわかりました。つまり、すべての値が欠落しています。Weka では、このデータで Apriori アルゴリズムを使用することは許可されていないため、インポートされたデータからこれらの属性を削除する方法があるかどうかを知りたい.

PS .: 何千もの属性があるため、削除する必要がある属性を指定したくありません。

0 投票する
2 に答える
1577 参照

algorithm - データ マイニング: アプリオリの問題。最小サポート

データ マイニング アプリオリ アルゴリズムを作成しました。小さなテスト データではうまく機能しますが、より大きなデータ セットで実行するには問題があります。

頻繁に一緒に購入されたアイテムのルールを生成しようとしています。

私の小さなテスト データは、5 つのトランザクションと 10 の製品です。

私の大きなテスト データは、1,100 万のトランザクションと約 2,700 の製品です。

問題: Min-support と Filter non-frequency items。頻度が 60% 以上の項目に関心があるとします。 frequency = 0.60;

60% の頻度アルゴリズムで小さなデータ セットを計算するMin-supportと、購入回数が 3 回未満のすべてのアイテムが削除されます。Min-support = numberOfTransactions * frequency;

しかし、大規模なデータセットに対して同じことをしようとすると、アルゴリズムは最初の反復後にほぼすべてのアイテムセットをフィルター処理し、そのような平面を満たすことができるアイテムはわずか数個です。

そのため、その平面をどんどん低くし始め、アルゴリズムを何度も実行しました。しかし、望ましい結果が得られるのは 5% でさえありません。最初の反復で少なくとも 50% のアイテムを取得するには、頻度パーセントを 0.0005 まで下げる必要がありました。

人為的に生成されているため、データの問題である可能性があるという現在の状況についてどう思いますか? (Microsoft Adventure Works バージョン) それとも、私のコードまたは最小サポートの計算の問題ですか?

多分あなたはこれを行うための他の解決策またはより良い方法を提供できますか?

ありがとう!

0 投票する
5 に答える
122 参照

algorithm - 次のシーケンスを生成する方法は?

次のシーケンスを生成したい:

一般に、n 個の数字のセットが与えられた場合、(n-1) 個の数字のすべての可能なサブセットを、それらがアルファベット順 (順番にある数字) であるという制約の下で見つけなければなりません。

特定の問題を解決するためのアルゴリズムまたはアプローチはありますか? 再帰を使用して小さなサブセットを生成できることはわかっています。

0 投票する
1 に答える
210 参照

machine-learning - アイテムのリストを指定して、販売するアイテムを予測する

顧客と彼が購入する製品のマッピングを含むデータセットがあります

それに基づいて、お客様に製品を推奨する必要があります。

cx の顧客の場合、製品を推奨する必要があるとします。これは、cx が上記のセットから何を購入しているかのデータがあり、アプリオリに実行して推奨事項を把握するためですが、大きなデータセットの場合は非常に遅いですか?

その問題を解決するための提案を誰か教えてくれませんか?

0 投票する
4 に答える
242 参照

python - Python:DIYは、この「all_subsets」関数を任意のサイズのサブセットに一般化します

小さなデータ相関ルールマインにおもちゃのAprioriアルゴリズムを実装するには、すべてのサブセットを返す関数が必要です。

サブセットの長さはパラメータで指定されますiこの関数を一般化する必要がありますi1または2の場合は簡単で、一般的なパターンを見ることができます。重複を防ぐために順序が課されているi長さのタプルのリストです。i

iリスト内包表記、ジェネレーター、またはいくつかの「関数型プログラミング」の概念を使用して、このネストされたループパターンを簡潔に一般化するにはどうすればよいですか?

iある種の関数のリストを考えていましたが、ネストされたループを一般化する方法がよくわかりません。ヒントや完全な回答は素晴らしいものとして扱われます。