問題タブ [data-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
model - データ処理におけるモデルが複雑すぎる
データを処理する人には、「データを十分に拷問すれば、ほとんど何にでも告白する」ということわざがあります。これは、ボフェローニの定理によって数学的に裏付けられています。この定理では、「統計的検定の数が増えると、誤った有意な結果(タイプIの過誤)が発生する可能性も高くなります」と述べています。たとえば、データマイニングの原則で与えられた状況が知られています:「このタイプの予測の特にユーモラスな例の1つは、有名なスタンダードとプアーの年間値のほぼ完全な予測を達成したラインウェーバー(個人的なコミュニケーション)によって提供されましたバングラデシュと米国のバター生産、チーズ生産、羊の個体数の前年の年間値の関数としての500財務指数。
複雑すぎるモデルを使用しているときに実際的な状況に遭遇しましたか?結果は誤っていましたか?あなたが使ったアプローチと一緒に、あなたはそのような状況を提示できますか?
artificial-intelligence - データマイニング、統計、集団的知性、AIアルゴリズムの本とプログラミングリソース
継続的に自分自身を向上させるために、データマイニング、統計、集団的知性、AIアルゴリズムなどについて学ぶことにしました。
使用できる無料の電子書籍やWebリソース(チュートリアル、コード)などは何ですか?
data-mining - データから情報を取得する-データマイニングの実用的な手法
私はphpとmysqlを使用してオンラインブックストアを開発しています。今、私は関連する本を推薦するなどのいくつかのデータマイニング技術を実装したいと思います。
そのようなことを実装するためのいくつかの有用な実用的なテクニックを取得するための最良のリソースは何かを知りたいです。
事前にthx。
data-mining - 協調フィルタリング:各ユーザーの製品の暗黙のスコアを決定する方法は?
ある程度の成功を収めた製品を推奨するアルゴリズムを実装したので、現在、このアルゴリズムの初期入力データを計算する方法を検討しています。
私の目的は、ユーザーが何らかの履歴を持っている各製品のスコアを計算することです。
私が現在収集しているデータ:
- ユーザー注文履歴
- 匿名ユーザーと登録ユーザーの両方の製品ページビュー履歴
このデータはすべてタイムスタンプが付けられます。
私が探しているもの
私が提案を探していることがいくつかあります。理想的には、この質問は、単一の「正しい」答えを目指すのではなく、議論のためにもっと扱われるべきです。
- 製品への関心を直接示唆する可能性のある、ユーザーのために収集できる追加データ
- このデータを各製品のスコアに変換するためのアルゴリズム/方程式
私が探していないもの
この質問が間違った種類の回答で狂わされるのを避けるために、各ユーザーのこのデータを取得したら、次のようにします。
- 距離スコアのピアソン係数を使用して、k-meansクラスタリングアルゴリズムを使用して多数のユーザークラスター(現時点では21)を生成します
- 各ユーザー(オンデマンド)について、クラスター内で最も類似しているユーザーと最も類似していないユーザーを探し、任意の深さで繰り返すことにより、類似ユーザーのグラフを計算します。
- ユーザーのグラフ内の他のユーザーの好みに基づいて、各製品のスコアを計算する
- スコアを並べ替えて推奨事項のリストを返す
基本的に、入力データを取得したらどうするかについてのアイデアは探していません(後でさらにサポートが必要になる場合がありますが、この質問のポイントではありません)。この入力データを生成する方法についてのアイデアだけです。そもそも
java - wekaの視覚化タブのジッターの意味は何ですか
wekaでは、arff ファイルを読み込みます。視覚化タブを使用して、属性間の関係を表示できます。
しかし、ジッタースライダーの意味がわかりません。その目的は何ですか?
algorithm - クラスターの中心を見つける
私は次の問題を抱えています-重要な問題を引き出すために抽象化しました。
私はそれぞれ10ポイントを持っており、それらは互いにある程度の距離を置いています。したい
- クラスターの中心、つまり、他の点とのペアワイズ距離が最小化されているポイントを見つけることができます
。p(j)〜p(k)は、ポイントjとk
p(i)が中心である間のペアワイズ距離を表します。クラスター内のn個のポイントがあるすべての0<j、k <= nに対して、クラスターのポイントiff p(i)st min [sum(p(j)〜p(k))] - クラスター内のデータポイントの数があるしきい値tを超えたら、クラスターを2つのクラスターに分割する方法を決定します。
これはユークリッド空間ではありません。しかし、距離は次のように要約できます-p(i)は点iです:
このクラスターの中心点を計算するにはどうすればよいですか?
open-source - どのデータ マイニング ツールを使用していますか?
よく知られている 2 つのオープン ソース ツールである RapidMiner と Weka 以外に、データ マイニングに推奨できる優れたツール (オープン ソースまたは商用) はありますか?
前もって感謝します!
mysql - 巨大なデータセットに最適なデータベース エンジン
私はデータマイニングを行っており、+1GB のデータベース ダンプ ファイルを MySQL にロードおよびアンロードする作業を行っています。巨大なデータベースで MySQL よりも優れた無料のデータベース エンジンが他にあるのでしょうか? PostgreSQL はパフォーマンスの面で優れていますか?
私は基本的な SQL コマンドしか使用しないため、データベースを選択する際の唯一の要因は速度です。
data-mining - データマイニング/BI/分析/ML : 数学的障害者はこの分野に参入できますか?
最近、データマイニングと機械学習の分野に興味を持っています。膨大なデータセットを調べて、隠れたパターンと傾向を関連付けようとするアイデアは魅力的です。これまでのところ、次のことを行っています
- Weka を使用して単純なデータセットを読み込み、決定木を生成しました
- 本、ウィキ、ブログ、SO を同じ場所で継続的に読む
- SQL Server DM と Python API をいじり始めました
- ウェブ上で自由に利用できるデータセット (freedb、UN など) のオプションについてアイデアを持っている
私を妨げているのは、分類/関連付けを超えて先験的/アプリオリなアルゴリズムに入ろうとする分です。数学の方程式と論理を理解することは(控えめに言っても)私の強みの1つではないため、立ち往生しています。
ですから、私の質問は、データ マイニングの分野で (プロダクト オーナーまたはビルダーの役割で) 生まれつき数学者ではない人がいますか? もしそうなら、Weka や Rapid-miner のような無料のツールはどちらも数学/統計のバックグラウンドを期待しているため、この分野を理解するためにどのようにアプローチしますか?
PS: データ マイニングと分析が別々の場合に混合するなど、クエリに誤りがあった場合は、申し訳ありません。私の核となる質問が明確であることを願っています。
data-mining - おいしいブックマーク-頻繁にブックマークされるURL
おいしいブックマークを分析するのに役立つ既成のスクリプトは見つかりませんでした。頻繁にブックマークする傾向のあるウェブサイトがあるかどうか知りたいです。ブックマークをエクスポートしてそこから移動できることはわかっています。誰かがこれをしましたか?どのようにそれについて行ったのですか?
ちなみに、似たようなことをするRSSリーダーはありますか?