問題タブ [pattern-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
3091 参照

data-mining - 「シーケンシャル パターン マイニング」と「シーケンシャル ルール マイニング」の違いは何ですか

非常に強力なオープン ソース データ マイニング ツール SPMF のドキュメントには、それらが個別にリストされています。

http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php

誰でも理由を知っていますか?

0 投票する
1 に答える
1133 参照

r - Apriori, arulesSequences, in R : 「バスケット」のシーケンスをサポートしていますか (1 回の買い物での順序は関係ありません)。

私が持っているいくつかのデータに対して頻繁なシーケンスマイニングを実行することを目的として、 arulesSequences を使い始めています。店舗 A のデータは次のようになります。

CUSTOMER_ID seq_num サイズ buy_items

1 17399 1 2 {100,100}

2 17399 2 1 {800}

3 17399 3 2 {900,900}

4 17399 4 1 {405}

5 17399 5 4 {200,505,200,505}

これは、この顧客 #17399 がこのストア A で複数回買い物をしたことを意味します。この人は初めての買い物で、商品コード 100 と 100 の商品を 2 つ購入しました。この顧客は 2 回目の買い物旅行で、アイテム 800 だけを購入しました。

今、私はこの顧客に cSPADE を使用したいと考えています。注文は「バスケット」内では重要ではありませんが、買い物旅行全体では重要です。したがって、最終的に顧客 17399 の記録は次のようになります。

CUSTOMER_ID 購入したアイテム

17399 {(100,100),800,(900,900),405,(200,505,200,505)}

{} には完全なシーケンスが含まれ、() は各ショッピング旅行を表します。

一般的にはこれが可能性であることは理解していますが、これをサポートする arulesSequences について明示的に説明している例 (数時間の検索) やメモは見たことがありません。そこに何か考えはありますか?助けていただければ幸いです。

御時間ありがとうございます。

0 投票する
0 に答える
194 参照

r - TraMineR の状態の最大数?

Web サイトのテキスト フィールドにユーザーが書き込んだテキストを含むデータ セットがあります。Web サイトの性質上、ほとんどのユーザーはフィールドに複数回書き込みました。パターンがあるかどうかを見てみたいと思います。たとえば、ある時点で「A」と書いたユーザーは、後で「B」と書くことになります。

グーグルで調べた後TraMineR、この種の分析用のライブラリとして見つけました。しかし、TraMineRand/or R は状態数に最大値を設定しているようです。これは本当ですか、それとも私は何か間違ったことをしていますか? 私の問題にアプローチする最良の方法は何ですか?

私のデータセットに関するいくつかの詳細情報:

  • 百万を超えるテキスト入力のログがあります
  • 約 90000 人の異なるユーザー
  • 約 80000 の異なる入力 (イベント/状態?)

私のデータの状態シーケンス オブジェクトを作成するには、 (ここで説明されているようにseqe2stm())から使用する必要があります。私の数は80000 を超えています。関数を実行すると、次のエラーが表示されます。TraMineRextrasevents

matrix(TRUE, nrow = nbstate, ncol = nevent) のエラー:
無効な 'nrow' 値 (大きすぎるか NA)
さらに: 警告メッセージ:
Matrix(TRUE, nrow = nbstate, ncol = nevent) 内:
強制によって導入された NA整数範囲へ

0 投票する
1 に答える
1581 参照

apache-spark - SPARK を使用してアソシエーション ルールからリフトとサポートを抽出する

頻繁なパターン マイニング アルゴリズム - アソシエーション ルールを使用しています。

私の質問は:

ルールのサポートとリフトを抽出することは可能ですか? 自信しかない…。

どうもありがとう!

0 投票する
0 に答える
27 参照

machine-learning - 頻繁なアイテムセット マイニング

私は母集団のアンケート結果を持っています 各人が各質問に答えます 各人は年齢、性別、人種、出身地などの属性を持っています

回答に基づいて人をクラスタリングし、そのための学習方法を作成するにはどうすればよいですか

例えば

男性は Q1 で B、Q3 で A と答えなければなりません

博士号を取得したアジア人は、Q4、Q6、Q8 の答えが D である必要があります。