問題タブ [apriori]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-mining - アイテムセットの適切な最小サポート?
アイテムセットの適切な最小サポートと信頼性について、あらゆる種類の資料を提案してください!
::i アプリオリ アルゴリズムを使用して、頻度の高い項目セットを検索します。アイテムセットの適切なサポートと信頼性がまだわかりません。サポートの大きさを決定するためにどのような考慮事項があるか知りたいです。
r - ビッグデータはルールパッケージから「トランザクション」に変換されます
Rのarulesパッケージは、クラス'transactions'を使用します。したがって、この関数apriori()
を使用するには、既存のデータを変換する必要があります。2列で約1.6mmの行を持つマトリックスがあり、次のようにデータを変換しようとしました。
ここで、original_dataは私のデータマトリックスです。データ量が多いため、64GBのRAMを搭載した最大のAWSAmazonマシンを使用しました。しばらくすると
結果のベクトルが「AnswerType」のベクトル長制限を超えています
マシンのメモリ使用量はまだ60%で「のみ」でした。これはRベースの制限ですか?サンプリングを使用する以外にこれを回避する方法はありますか?データの1/4のみを使用する場合、変換は正常に機能しました。
編集:指摘したように、変数の1つは文字ではなく要因でした。変更後、変換は迅速かつ正確に処理されました。
database - Aprioriアルゴリズムのデータセット
(アプリオリアルゴリズムを使用して)マーケットバスケット分析用のアプリを開発しようとしていますが、90,000を超えるトランザクションレコードを持つデータセットを見つけました。
問題は、このデータセットにアイテムの名前がなく、アイテムのバーコードのみが含まれていることです。
私はプロジェクトを開始し、アプリオリアルゴリズムの研究を行っていますが、このケースについて誰かが私を助けてくれますか?次のデータセットを使用してこのアルゴリズムを実装する最良の方法は何ですか?
algorithm - テーブルの相関関係を見つけることにつながります
次の 2 つのテーブルを用意します。
と
これら 2 つのテーブル間の任意の関係を見つけるための良いアルゴリズムは何でしょうか? Op1 = C
この例では、TableA と TableB に含まれるレコード間の明らかな関係を見つけたいと考えていますType = 3000
。
アプリオリに考えることができますが、あまり実用的ではないようです。あなたたちは何を言いますか?
ありがとう。
hadoop - AprioriとHadoopとの相関ルール
map-reduceを使用してAprioriアプリを作成することはできますか?私は始めていますが、前の実行に基づいて次の候補セットを作成する方法が明確ではありません。誰かがこれを経験したことがありますか?
java - アプリオリ アルゴリズムからの Eclat アルゴリズム実装の生成
Apriori アルゴリズムを Eclat アルゴリズムに変えようとしています。私の Apriori アルゴリズムは、水平形式の垂直項目でトランザクションを実行し、n 番目に頻度の高い項目セットを返します。
Eclat アルゴリズムでは、項目を垂直方向に設定する必要があり、水平方向のトランザクションで機能する必要があります。私の Apriori と同様に、アイテムセットの交差を返す必要があります。
ITEMSETS
0 1 1 0 1 1 1 0 0 1 1 1 1 1トランザクション 0 1 1 0 1
1 0 0 1 0 1 1 0
0 1 1 0 0 1 1 0 0 1 0 1 1 1
0 0 1 0 1 1 1 0 0 1 1 1 1 1
0 1 1 0 1 1 0 1 0 1 1 1 1 0
0 1 1 1 1 0 0 0 1 1 1 1 1
0 0 1 1 1 1 0 0 0 1 0 1 1 1 1 1
1 1 1 1 0 0 0 1 1 1 0 1
0 1 1 1 1 0 0 1 0 1 1 0 1
1 1 1 1 0 0 0 0 1 1 1 1 0 0
転置することは問題ではなく、水平方向に検索して頻繁にアイテムセットを見つけることです。
}
r - Rのアプリオリ呼び出しから一般的なアイテムセットの頻度を取得するにはどうすればよいですか?
問題:
arulesパッケージのapriori関数は、入力トランザクションからアソシエーション ルールを推測し、各ルールのサポート、信頼度、リフトを報告します。アソシエーション ルールは、頻出アイテムセットから派生します。入力トランザクションで最も頻繁に使用される項目セットを取得したいと考えています。具体的には、特定の最小サポートですべてのアイテムセットを取得したいと考えています。アイテムセットのサポートは、アイテムセットを含むトランザクションの数とトランザクションの総数の比率です。
要件:
- アプリオリ関数の中間結果から最も頻繁に使用される項目セットを見つけることを強く希望します。つまり、最も頻繁に使用されるアイテムセットを計算するためだけにプログラムをゼロから作成するのは避けたいと思います。なぜなら、アプリオリ関数が既に中間ステップとしてそれを計算しているからです。それにもかかわらず、アプリオリ関数の中間結果にアクセスする合理的な方法が実際にない場合、私は他の解決策を受け入れます。
- このアプローチはapriori関数の結果の文字列表現に大きく依存するため、 apriori関数の結果に対して文字列操作を行いたくありません。繰り返しますが、より良い代替手段がないことが判明した場合、私はこのアプローチに頼るかもしれません.
- arulesパッケージ
itemFrequency
が提供する機能を認識しています。残念ながら、この関数はアイテムセットを 1 つのアイテムで報告するだけです。最小限のサポートで任意の長さのすべてのアイテムセットに興味があります。 - 出力を数値的にサポートでソートしてから、辞書式にアイテムセットでソートしたいと思います。
入力例:
プログラム:
現在の出力:
望ましい出力:
dataset - Aprioriアルゴリズムのスーパーマーケットデータセット
「「FutureStores」スーパーマーケットのビジネスアナリスト向けのソフトウェアを開発する必要があります。このソフトウェアは、スーパーマーケットの販売取引の特定の移行データに対してアソシエーションルールマイニングを実行し、コンボを準備して割引ポリシーを作成します。このソフトウェアは、データマイニングアルゴリズム、つまりAprioriアルゴリズムを利用しています。アソシエーションルールは、ポジティブアソシエーションルールに基づいて割引ポリシーを生成するために、ユーザーフレンドリーな方法で表示されます。
コーディングしたAprioriアルゴリズムを確認するために、スーパーマーケットのデータセットをどこから入手できますか?
algorithm - FP-Growth アルゴリズムの時間と空間の複雑さは?
データ マイニングの FP_growth アルゴリズムの時間の複雑さと空間の複雑さをどのように計算しますか??
data-mining - Apriori アルゴリズムで最小サポートを見つける方法
サポートと信頼のパーセンテージ値が指定されている場合、Apriori アルゴリズムで最小サポートを見つける方法を教えてください。たとえば、支持率と信頼度がそれぞれ 60% と 60% として与えられている場合、最小支持率はどれくらいですか?