問題タブ [pattern-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-mining - 「シーケンシャル パターン マイニング」と「シーケンシャル ルール マイニング」の違いは何ですか
非常に強力なオープン ソース データ マイニング ツール SPMF のドキュメントには、それらが個別にリストされています。
http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php
誰でも理由を知っていますか?
r - Apriori, arulesSequences, in R : 「バスケット」のシーケンスをサポートしていますか (1 回の買い物での順序は関係ありません)。
私が持っているいくつかのデータに対して頻繁なシーケンスマイニングを実行することを目的として、 arulesSequences を使い始めています。店舗 A のデータは次のようになります。
CUSTOMER_ID seq_num サイズ buy_items
1 17399 1 2 {100,100}
2 17399 2 1 {800}
3 17399 3 2 {900,900}
4 17399 4 1 {405}
5 17399 5 4 {200,505,200,505}
これは、この顧客 #17399 がこのストア A で複数回買い物をしたことを意味します。この人は初めての買い物で、商品コード 100 と 100 の商品を 2 つ購入しました。この顧客は 2 回目の買い物旅行で、アイテム 800 だけを購入しました。
今、私はこの顧客に cSPADE を使用したいと考えています。注文は「バスケット」内では重要ではありませんが、買い物旅行全体では重要です。したがって、最終的に顧客 17399 の記録は次のようになります。
CUSTOMER_ID 購入したアイテム
17399 {(100,100),800,(900,900),405,(200,505,200,505)}
{} には完全なシーケンスが含まれ、() は各ショッピング旅行を表します。
一般的にはこれが可能性であることは理解していますが、これをサポートする arulesSequences について明示的に説明している例 (数時間の検索) やメモは見たことがありません。そこに何か考えはありますか?助けていただければ幸いです。
御時間ありがとうございます。
r - TraMineR の状態の最大数?
Web サイトのテキスト フィールドにユーザーが書き込んだテキストを含むデータ セットがあります。Web サイトの性質上、ほとんどのユーザーはフィールドに複数回書き込みました。パターンがあるかどうかを見てみたいと思います。たとえば、ある時点で「A」と書いたユーザーは、後で「B」と書くことになります。
グーグルで調べた後TraMineR
、この種の分析用のライブラリとして見つけました。しかし、TraMineR
and/or R は状態数に最大値を設定しているようです。これは本当ですか、それとも私は何か間違ったことをしていますか? 私の問題にアプローチする最良の方法は何ですか?
私のデータセットに関するいくつかの詳細情報:
- 百万を超えるテキスト入力のログがあります
- 約 90000 人の異なるユーザー
- 約 80000 の異なる入力 (イベント/状態?)
私のデータの状態シーケンス オブジェクトを作成するには、 (ここで説明されているようにseqe2stm()
)から使用する必要があります。私の数は80000 を超えています。関数を実行すると、次のエラーが表示されます。TraMineRextras
events
matrix(TRUE, nrow = nbstate, ncol = nevent) のエラー:
無効な 'nrow' 値 (大きすぎるか NA)
さらに: 警告メッセージ:
Matrix(TRUE, nrow = nbstate, ncol = nevent) 内:
強制によって導入された NA整数範囲へ
apache-spark - SPARK を使用してアソシエーション ルールからリフトとサポートを抽出する
頻繁なパターン マイニング アルゴリズム - アソシエーション ルールを使用しています。
私の質問は:
ルールのサポートとリフトを抽出することは可能ですか? 自信しかない…。
どうもありがとう!
machine-learning - 頻繁なアイテムセット マイニング
私は母集団のアンケート結果を持っています 各人が各質問に答えます 各人は年齢、性別、人種、出身地などの属性を持っています
回答に基づいて人をクラスタリングし、そのための学習方法を作成するにはどうすればよいですか
例えば
男性は Q1 で B、Q3 で A と答えなければなりません
博士号を取得したアジア人は、Q4、Q6、Q8 の答えが D である必要があります。