問題タブ [bayesian]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 一般的な落とし穴なしで効果的に 1-10 投票システムを統合する
合理的なランキング/投票システムを既存のアプリケーションに統合することを計画しています。
私は従来の 5 つ星評価システムがどのように機能するかをよく知っており、それらに関連する一般的な落とし穴/問題を知っているため、他の方法があるかどうか疑問に思っていました (ウィルソン、ベイジアンなどについて聞いたことがありますが、実装方法についてはよくわかりません)。これは以下の構造で):
- ユーザーがコンテンツページから 1 から 10 までのコンテンツに投票できるようにする予定です。
- そのコンテンツのスコアと総投票数がコンテンツ ページに表示されます。
- また、トップ 10 のコンテンツを表示/リストするので、公正で現実的な方法が必要であり、合計 1 票で 10 票を投じて 1 位に直行する必要はありません。
私はPHP
andを使用しMySQL
ています。コンテンツ用のテーブルがあります (これには がcontent_id
あると思いますJOIN
)。
上記を達成する方法/方法を提案できるかどうか疑問に思っています.PHPコードの例とMySQLスキーマの例を添付していただければ幸いです。 WilsonsやBayesianなどの潜在的な解決策を見つけました...しかし、それらは複雑な数式を含む長い記事を提供しています-そして、上記を達成する方法(つまり、スコア....およびPHP/MySQLでのメソッドの実装)または少なくとも言及していませんPHP/MySQL コードの例がないため、これを誤解しています。
おそらく、これは私が思うよりも簡単です-この種の「より複雑な」ランキング/投票機能をこれまで実装する必要がなかったため、わかりません-ので、ご回答いただければ幸いです.
machine-learning - Naive bayes Classifier でオッズ比特徴選択を使用する方法
ドキュメント (単語で構成されている) を 3 つのクラス (ポジティブ、ネガティブ、未知/中立) に分類したい。ドキュメントの単語のサブセットが特徴になります。
これまで、機能セレクターとして情報ゲインとカイ 2 乗統計を使用して、単純ベイズ分類器をプログラムしてきました。ここで、オッズ比を機能セレクターとして使用するとどうなるかを確認したいと思います。
私の問題は、オッズ比を実装する方法がわからないことです。するべきか:
1) すべての単語 w、すべてのクラスのオッズ比を計算します。たとえば、w の場合:
2) その単語を特徴として選択するかどうかは、どのように決定すればよいですか?
前もって感謝します...
bayesian - ウェブサイトの分類に対するMahoutのナイーブベイズ分類器の適合性
私は現在、ウェブサイトを分類するデータベースを必要とするプロジェクトに取り組んでいます(例:cnn.com = news)。必要なのは大まかな分類だけです。すべてのURLを個別に分類する必要はありません。私たちはそのようなデータベースの通常のベンダーと話をしていますが、私たちが戻ってきたほとんどの見積もりは非常に高価であり、データベースをクエリするためにSDKを使用する必要があるなどの厄介な要件を課すことがよくあります。
その間、私もそのようなデータベースを自分で構築する可能性を模索してきました。これは5分の仕事ではないことを理解しているので、私はたくさんの研究をしています。
このテーマに関するさまざまな論文を読むと、単純ベイズ分類器が一般的にこれを行うための標準的なアプローチであるように思われます。ただし、多くの論文は、Web分類の精度を向上させるための拡張機能を提案しています。通常は、ハイパーリンク、ヘッダータグ、複数単語のフレーズ、URL、単語の頻度など、他のコンテキスト情報を利用します。
私は20のニュースグループテストデータセットに対してMahoutの単純ベイズ分類器を実験してきました。Webサイト分類への適用性を確認できますが、ユースケースの精度が心配です。
追加の属性を考慮に入れるためにMahoutのベイズ分類子を拡張する可能性を知っている人はいますか?どこから始めればよいかについてのポインタをいただければ幸いです。
または、完全に間違った木を吠えている場合は、私に知らせてください!
algorithm - ベイジアン分類器の実装の詳細
単純なベイジアン分類器を実装しましたが、それを大量のデータで使用するとオーバーフローの問題が発生します。
数値を小さく保ちながら正確に保つために私が試みた 1 つの戦略は、方程式のすべての部分の最大公約数で分子と分母を減らし続けることでした。ただし、これは、共通の約数がある場合にのみ機能します...
ほとんどの計算で分母と分子を分離しておくと、整数オーバーフローに苦労します。ほとんどの計算をオンザフライで実行し、二重算術を使用すると、さまざまな問題/制限に遭遇します。 (IEEE 754 で定義されているように) 非常に小さな double 値があります。
ここにいる何人かは以前にこのアルゴリズムを実装したことがあると思いますが、これらの問題にどのように対処しましたか? コストがかかりすぎるため、任意の精度の型を取り込まないことをお勧めします。それらを必要としないソリューションが存在すると確信しています。
ありがとう。
statistics - Naive Bayes Classifier によるオンライン学習
着信ネットワーク パケットの到着間隔を予測しようとしています。ネットワーク パケットの到着間隔を測定し、このデータをバイナリ機能の形式で表します。損益分岐点、それ以外は 1。データは、2 つの可能なクラスC={0,1}にマップする必要があります。ここで、C=0は短い到着間隔を表し、1 は長い到着間隔を表します。分類子をオンライン機能に実装したいので、機能のベクトルを観察するとすぐにxi=0,1,1,0..., MAP クラスを計算します。条件付き確率と事前確率の事前推定がないため、次のように初期化します。
各特徴ベクトル(x1=m1,x2=m2,...,xn=mn)について、クラスCを出力するときに、条件付き確率と事前確率を次のように更新します。
問題は、常に偏った予測を得ていることです。longの到着間隔の数は shortよりも比較的少ないため、shortの事後は常にlongよりも高いままです。これを改善する方法はありますか?または私は何か間違ったことをしていますか?どんな助けでも大歓迎です。
machine-learning - カテゴリへのテキスト分類
私はテキスト分類の問題に取り組んでいます。単語のコレクションをカテゴリに分類しようとしています。はい、分類に使用できるライブラリはたくさんあります。それらを使用することを提案している場合は、答えないでください。
何を実装したいのか説明させてください。(例をとる)
単語のリスト:
- java
- プログラミング
- 言語
- Cシャープ
カテゴリのリスト。
- java
- Cシャープ
ここでは、次のようにセットをトレーニングします。
- javaはカテゴリ1にマップされます。java
- プログラミングはカテゴリ1.javaにマップします
- プログラミングはカテゴリ2.cにマップされます-シャープ
- 言語はカテゴリ1.javaにマップされます
- 言語はカテゴリ2.cにマップされます-シャープ
- c-sharpはカテゴリ2にマップされます。c-sharp
これで、与えられたフレーズから「最高のJavaプログラミングブック」というフレーズができました。次の単語は、「単語のリスト」と一致します。
- java
- プログラミング
「プログラミング」には、「java」と「c-sharp」の2つのマップされたカテゴリがあるため、一般的な単語です。
「java」はカテゴリ「java」にのみマップされます。
したがって、このフレーズに一致するカテゴリは「java」です。
これが私の頭に浮かんだことです。このソリューションは問題ありません。実装できますか、あなたの提案は何ですか、私が見逃していること、欠陥などです。
statistics - ベイズ ネット オープン ソース
良いオープンソースまたは無料のベイズ ネット ソフトウェア プログラムを推奨できる人はいますか?
授業でbaysealabを使っていたのですが、アカウントの有効期限が切れてしまい、bnsの構築と利用を続けたいと思っています。
java - Java で書かれたオープン ソースの単純ベイズ分類器
Java で書かれたオープン ソースの Naïve Bayes Classifier ライブラリを探しています。1 つを見つけるための任意の助けをいただければ幸いです。
Naïve Bayes Classifier は Bayesian Network と同じですか?
mahout - Apache mahout の nGrams
apache mahout を使用して単純ベイズ分類アルゴリズムを実行しています。アルゴリズムのインスタンスのトレーニングと実行中にグラム サイズを設定するオプションがあります。
n-Gram サイズを 1 から 2 に変更すると、結果の分類が大幅に変更されます。なぜこれが起こるのですか?n-Grams のサイズはどのように結果に劇的な変化をもたらしますか?
java - Web アプリケーションで mahout の分類器を使用する
Apache mahout を使用してベイジアン分類器を開発しました。今度は、トレーニング モデルが与えられた Java ベースの Web アプリケーションと統合したいと思います。Web アプリケーションは、指定されたテキストを予測および分類できる必要があります。JSP ベースの Web アプリです。
どうすればいいですか?ステップバイステップのチュートリアルを提供するブログ/サイトはありますか?