問題タブ [bayesian]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby - ベイジアン分類子スコアは何を表していますか?
私はruby classifier gemを使用しています。その分類メソッドは、訓練されたモデルに対して分類された特定の文字列のスコアを返します。
スコアはパーセンテージですか?もしそうなら、最大差は100点ですか?
python - Python Orange 分散コンピューティング
現在、Python パッケージOrangeを使用して、大量のデータ セットに対していくつかの分類テストを実行しています。私は主に Naive Bayes 法を使用しており、他のアプリケーションから、計算のために複数のノードに分散できることを知っています。残念ながら、オレンジには複数のコンピューターまたはコアを使用する機能がないようです。
クラスタ環境で Orange を使用したことのある人はいますか? またはマルチコアコンピューターで?
どんな提案も役に立ちます..
よろしく
java - ツイート値の予測:どのような分析(ベイジアン?)で、Twitterユーザーがツイートをどの程度評価するかを予測できますか?
TalkingPuffin Twitterクライアントに機能を追加することを考えています。この機能では、ユーザーとのトレーニングの後、予測値に従って着信ツイートをランク付けできます。Java仮想マシン(ScalaまたはJavaが推奨)がこの種のことを行うためのソリューションは何ですか?
artificial-intelligence - 分類アルゴリズムのパラメータ最適化
異なるアルゴリズムには異なるパラメーターがあると言われています。ツリー決定アルゴリズムと単純なベイジアンアルゴリズムの場合、それぞれのパラメーターは何ですか? 誰かが私に例を与えることができます..
この場合、デシジョン ツリー アルゴリズムを使用して実行されるデータに対して 5 倍の交差検証を行うことは、ベイジアンとは異なりますか?
また、パラメーターの最適化のために、5 分割の交差検証を行います。wekaを使用してパラメータの設定値キーを決定するためにこれを自動的に行う方法はありますか?
nlp - ドキュメントの分析とタグ付け
タグ付けや分類などを行いたいエッセイ (数千) がたくさんあるとしましょう。理想的には、数百を手動で分類/タグ付けして何かをトレーニングし、それを解放したいと考えています。
そのようなタスクを実行するために、どのリソース (本、ブログ、言語) をお勧めしますか? 私の一部では、これはベイジアン分類子や潜在的意味分析にも適していると考えていますが、いくつかのruby gemから見つけたもの以外は、どちらにもあまり詳しくありません。
このようなことは、ベイジアン分類器で解決できますか? 意味解析/自然言語処理についてもっと調べるべきですか? それとも、そこからキーワードの密度とマッピングを探すだけでよいのでしょうか?
どんな提案でも大歓迎です (それが必要なら、何冊かの本を手に取ってもかまいません)!
matlab - mvnpdfMATLABで分類する
私はトレーニングを使用してデータを分類しているので、次元は、xtrain matrix
μは2要素ベクトル、Σはcovariancxe行列2x2です。2 features
2000 rows
2
mu =
0.3486 0.8327
私は次のようなことをしています:
次に計算します:
問題は、分類器の結果をxtest matrix
?でテストする方法です。
例)mvnpdf(X,Mean,Cov)
X <=
分類したいデータ
Mean
<=作成時に
Cov
既知<=作成時に既知
各クラスのデータ計算を分類しpdfgauss and multiply by Prior(w)
、最大値を示すクラスを選択するには
これらの関数を使用するために、pdfgaussは距離を計算するために何かを使用します
dist = mahalan(X,Mean(:,i),Cov(:,:,i));
- この分類を終了するにはどうすればよいですか?
pdfgauss.m
machine-learning - テキスト分類に単純ベイズを実装する可能性の対数
テキスト分類に単純ベイズ アルゴリズムを実装しています。トレーニング用に約 1000 個のドキュメント、テスト用に 400 個のドキュメントがあります。トレーニング部分は正しく実装したと思いますが、テスト部分で混乱しています。これが私が簡単にやったことです:
私のトレーニング機能では:
トレーニング部分を正しく理解して実装したと思いますが、テスト部分を正しく実装できたかどうかはわかりません。ここでは、各テスト ドキュメントを調べて、各ドキュメントの logP(spam|d) と logP(non-spam|d) を計算します。次に、クラス (スパム/非スパム) を決定するために、これら 2 つの量を比較します。
私のテスト機能では:
私の問題は; 正確な 1 と 0 (スパム/非スパム) ではなく、各クラスの確率を返したいと考えています。たとえば、 newclass = 0.8684212 を見たいので、後でしきい値を適用できます。しかし、私はここで混乱しています。各ドキュメントの確率を計算するにはどうすればよいですか? logProbabilities を使用して計算できますか?
command-line - コマンドラインからwekaを実行 - クラスNaiveBayesが見つかりません
コマンドラインからWeka分類を実行しようとしていますが、私のコード:
エラーメッセージが表示されます:
「メイン クラスが見つかりませんでした: weka.classifiers.bayes.NaiveBayes。プログラムは終了します。」
weka.jar を含むディレクトリでコマンドを実行しています。分類器が見つからないのはなぜですか?
algorithm - 洪水ベイジアン評価は範囲外の値を作成します
ベイジアン評価式を適用しようとしていますが、5000のうち1を評価すると、最終的な評価は5より大きくなります。
たとえば、特定のアイテムには投票がなく、1つ星で170,000回投票した後、最終的な評価は5.23になります。100と評価すると、通常の値になります。
これが私がPHPで持っているものです。
1または2で氾濫しても。
100,000票後の最終評価は5を超えています。
を使用して新しいテストを行いました
そして、100,000を超えると、完全に範囲外の値(10.53)になりました。通常の状況では、17万票を獲得するアイテムはなく、他のすべてのアイテムは投票を獲得しないことを私は知っています。しかし、私のコードに何か問題があるのか、それともこれが大量の投票を考慮したベイズの公式の予想される動作であるのかどうか疑問に思います。
編集
明確にするために、ここにいくつかの変数のより良い説明があります。
式は次のとおり( (avg_num_votes * avg_rating) + (this_num_votes * this_rating) ) / (avg_num_votes + this_num_votes)
です。ここから撮影
php - ベイジアン ランキング システムに別の要素 (クリック数) を追加する
私はアマチュア ミュージシャン向けの音楽ウェブサイトを運営しており、そこでは 10 点満点のスコアに基づく評価システムがあり、それが 100 点満点の総合スコアに計算されます。平均スコアに直接影響するユーザー向けの「信頼性」ポイント システムがあります。次のステップは、このデータを効果的に使用するチャート システムを実装することです。
私がどのデータを自由に使用できるかを確認できるように、すべてがどのように機能するかを正確に説明します。
- サイト メンバーが 1 から 10 の間でトラックを評価します。
- そのサイト メンバーには「信頼性」スコアがあります。これは、サイト周辺のさまざまなアクティビティに対して蓄積されたポイントの合計です。たとえば、ユーザーは評価を与えることで 100 ポイントを獲得するため、より多くの評価を与えるほど、「信頼性」スコアが高くなります。信頼度スコアの合計のみがデータベースに保存され、ユーザーがポイント報酬付きのアクティビティを実行するたびに更新されます。これらの個々のアクティビティは保存されません。
- トラックを評価した他のユーザーと比較したこのユーザーの信頼度に基づいて、トラックの加重平均が計算され、トラック テーブルに 1 ~ 100 の数値として格納されます。
- トラック テーブルには、トラックが再生された回数 (再生回数) も合計として格納されます。
したがって、使用する必要があるデータは次のとおりです。
- トラックの総合評価 (1 から 100 までの数字)
- トラックの評価数
- トラックの再生回数
チャート システムでは、上記の 3 つのデータ セットを使用して、品質(全体的な評価、評価数で正規化) と人気(再生数) の間の公正なバランスを作成するランキングを作成したいと考えています。ただし、システムは人気よりも品質を重視する必要があります。たとえば、品質面は正規化されたランキングの 75% を占め、人気度は 25% を占めます。
このサイトで検索した結果、品質面を理解するのに役立つIMDB ベイジアン スタイルのシステムを見つけましたが、人気 (再生数) を追加して、希望する方法でバランスを取るにはどうすればよいですか?
このサイトは PHP と MySQL で書かれています。
編集: タイトルには「クリック数」と書かれていますが、これは基本的に「再生数」に直接相当します。