問題タブ [bayesian]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - SQLでの単純ベイズ計算
単純ベイズを使用して、ドキュメントを比較的多数のクラスに分類したいと考えています。私は、エンティティが正しく検証された記事とその記事が類似しているかどうかに基づいて、記事内のエンティティ名の言及が本当にそのエンティティであるかどうかを確認しようとしています。
たとえば、ある記事で「General Motors」というテキストを見つけたとします。記事とその中で言及されている正しいエンティティを含む一連のデータがあります。したがって、新しい記事で言及されている「ゼネラルモーターズ」が見つかった場合、既知の本物を含む以前のデータの記事のクラスに該当する必要があります。 「ゼネラルモーターズ」に言及するのと、そのエンティティに言及していない記事のクラスとの比較は?
(すべてのエンティティのクラスを作成して、すべての新しい記事を可能なすべてのクラスに分類しようとしているわけではありません。エンティティ名のもっともらしい言及を見つけるためのヒューリスティックな方法が既にあり、限られた数の妥当性を検証したいだけです。メソッドが既に検出した記事ごとのエンティティ名の言及)。
潜在的なクラスと記事の数が非常に多く、単純なベイズが比較的単純であることを考えると、SQL ですべてを実行したかったのですが、スコアリング クエリに問題があります...
これが私がこれまでに持っているものです:
マークされたデータ内の各記事は個別の単語に分割され、各エンティティの各記事について、すべての単語が に追加され、each_entity_word
および/またはその単語がword_count
インクリメントされ、doc_count
インクリメントされます。これは、その記事で言及されている既知のエンティティごとに繰り返されます。entity_word_sum
entity_id
各単語に含まれるエンティティに関係なく、記事ごとtotal_entity_word
total_entity_word_sum
に同様にインクリメントされます。
- P(word|any document) は、その単語
の
word_count
inに等しい必要があり ますtotal_entity_word
doc_count
total_entity_sum
- P(単語|ドキュメントは
エンティティxに言及
word_count
し ています)each_entity_word
entity_id
doc_count
each_entity_sum
entity_id
- P(単語|ドキュメントはエンティティxについて言及していません) は、(そのエンティティのinからその単語のinを引いたもの) 以上 ( inのそのエンティティの inを引いたもの)に等しくなければなりません
word_count
total_entity_word
word_count
each_entity_word
doc_count
total_entity_sum
doc_count
each_entity_sum
- P(ドキュメントはエンティティx
doc_count
に言及しています) は、each_entity_sum
そのエンティティ ID に対して等しい必要がありますdoc_count
。total_entity_word
- P(ドキュメントはエンティティxについて言及していません) は 1 マイナス ( xのエンティティ ID に対してin )
doc_count
に等しい必要があります。each_entity_sum
doc_count
total_entity_word
入ってくる新しい記事の場合、それを単語に分割し、または のいずれeach_entity_word
かに対して ('I'、'want'、'to'、'use'...) の単語を選択するだけtotal_entity_word
です。私が(mysql)で作業しているdbプラットフォームでは、IN句は比較的適切に最適化されています。
また、SQLにはproduct()集計関数がないため、もちろん、sum(log(x))またはexp(sum(log(x)))を実行して、product(x)と同等のものを取得できます。
したがって、新しい記事を取得し、それを個別の単語に分割し、それらの単語を大きな IN() 句とテストする潜在的なエンティティ ID に入れる場合、記事がそのエンティティに該当する単純なベイジアン確率を取得するにはどうすればよいですか? SQLのidのクラス?
編集:
#1を試してください:
ssas - SSAS で単純ベイズ分類子を実装する方法を学習するための最適なリソースは何ですか?
この質問をした後、SQL Server Analysis Services を使用して Naive Bayes Classifiers をいくつか試して実装することにしました。
SSASに単純ベイズ分類器を実装する方法について、まともな本、Webサイト、またはその他のリソースを誰かに教えてもらえますか? 同様に、ディシジョン ツリーについても学びたいと思います。
ruby - Rubyでベイジアン分類器を実装していますか?
簡単なベイジアン分類システムを実装して、短いメッセージの基本的な感情分析を行いたいと考えています。Ruby で実装するための実用的な提案を歓迎します。ベイズ以外のアプローチの提案も歓迎します。
nlp - 単純な感情分析
基本的な感情分析を行うための最も簡単で簡単な方法は、ベイズ分類器を使用することであるように思われます(私がここSOで見つけたものによって確認されました)。反論やその他の提案はありますか?
sorting - 5つ星の評価で並べ替えるより良い方法は何ですか?
5つ星システムを使用して、顧客の評価で多数の製品を並べ替えようとしています。私がこれを設定しているサイトには多くの評価がなく、新しい製品を追加し続けているため、通常、評価の数が少ないいくつかの製品があります。
平均的な星の評価を使用してみましたが、評価の数が少ないとそのアルゴリズムは失敗します。
たとえば、3x 5つ星の評価がある製品は、100x5つ星の評価と2x2つ星の評価がある製品よりも見栄えが良くなります。
2番目の製品は、評価の数が多いために統計的に信頼性が高いため、高く表示されるべきではありませんか?
r - MCMCログの混乱
誰か説明してくれませんか
常に 0 の MCMC 受け入れ率になりますか? どんな説明でも大歓迎です!
algorithm - 他のユーザーが好きなものに基づいてユーザーが欲しいものを見つけるためのアルゴリズム
家族の好みに合わせてHTPCで映画を分類するアプリを書こうと思っています。
統計やAIはわかりませんが、ここにあるものはとてもジューシーに見えます。どこから始めたらいいのかわからない。
これが私が達成したいことです:
各ユーザーの好みのサンプルのセットを作成し、各サンプル属性を個別に評価します。たとえば、ユーザーが西部劇を非常に好む場合、西部劇のジャンルはそのユーザーにとってもう少し重要になります(俳優、監督などの他の属性についても同様です)。
ユーザーは、他のユーザーのいいねに基づいて提案を得ることができます。たとえば、ユーザーAとBの両方がSpielberg(ユーザー間の接続)を好み、ユーザーBがバットマンビギンズを愛しているが、ユーザーAがケイティホームズを嫌っている場合は、それに応じてユーザーAの映画の重さを量ります(ここでも、各属性を別々に、たとえば、ユーザーAはアクション映画があまり好きではないので、評価を少し下げてください。ケイティホームズは主役ではないので、他の属性ほど考慮しないでください)。
基本的に、ユーザーAのセットをユーザーBのセットと比較し、ユーザーAの評価を考え出します。
私はこれを実装する方法について大まかな考えを持っていますが、いくつかの明るい心はすでにはるかに優れた解決策をすでに考えていると確信しています、それで...何か提案はありますか?
実際、簡単な調査の結果、ベイジアンフィルターが機能するようです。もしそうなら、これはより良いアプローチでしょうか?映画データを「正規化」し、ユーザーごとに分類器をトレーニングしてから、各映画を分類するのと同じくらい簡単でしょうか。
あなたの提案にいくつかの脳融解の概念が含まれている場合(私はこれらの主題、特にAIの経験がありません)、肉のようなものに飛び込む前に私が研究するためのいくつかの基本のリストも含めていただければ幸いです。
ありがとう!
duplicates - 重複アイテムをマークするベイジアンフィルター
私は特定のトピックのニュースを収集し、それらに対してベイジアン分類を実行して、それらを興味深いまたは興味のないものとしてマークします。記事が違うニュースは本質的に同じニュースだと思います。例-ベンキングズレーが妻と一緒にタージマハルを訪問-タージの芝生でキングズレーロマンスの妻
これらすべてを重複としてマークするようにシステムに教えるにはどうすればよいですか?
ありがとうSanjay
c# - ベイジアンネットワークにおけるキムとパールのメッセージパッシングアルゴリズム
ベイジアンネットワークの優れた実装を見つけることができる優れたリンク/リソースを教えてください。条件付き確率テーブルの生成とメッセージの受け渡し/ノードの更新方法に特に興味があります。
ありがとう!