問題タブ [bayesian]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 上位 k 出力を備えた大規模単純ベイズ分類器
何百万ものトレーニング例と +100k のバイナリ機能を備えた、大規模なナイーブ ベイズ用のライブラリが必要です。オンライン バージョンである必要があります (トレーニング後に更新可能)。また、1 つのインスタンスに対する複数の分類である上位 k の出力も必要です。精度はあまり重要ではありません。
目的は、自動テキスト分類アプリケーションです。
良いライブラリの提案は大歓迎です。
編集: ライブラリは Java であることが望ましいです。
algorithm - センテンスでナイーブベイズを使用する方法
単純なベイズ アルゴリズムを使用して文を良いか悪いかを分類する疑似コードをどのように記述すればよいでしょうか?
最初のステップは、実験データを取得して、良い/悪い単語を含む例文を作成し、それらの文章の出力例 (良いまたは悪いとして分類) を取得することだと思います。しかし、このデータを使用してアルゴリズム自体を生成するにはどうすればよいでしょうか?
c# - 人工知能、テキスト分類器
私はAIを初めて使用します。機械学習によるテキスト分類のアプリケーションを開発しています。アプリケーションは、HTMLドキュメントのさまざまな部分を分類する必要があります。たとえば、ほとんどのWebページには、ヘッド、メニュー、サイドバー、フッター、メインコンテンツなどがあります。テキスト分類子を使用して、HTMLドキュメントのこれらの部分を分類し、ページ上のさまざまなタイプのフォームを識別したいと思います。
- 誰かがこの主題に関する詳細なガイダンスを提供できれば非常に役に立ちます。
- 同様のアプリケーションの例も非常に役立ちます。
コードと実装に関連する、より技術的な提案を探しています。
クラスやIDなどのHTMLタグ属性にラベルを割り当てることができます
最初のアイテムのように:
TrainClassifier(label: "Menu"、value: "menu-1"、attribute: "class"、position-in-string: "21%"、tag: "div");
入力:
- 「menu-1」(属性値)
- リストアイテム
- 「クラス」(属性名)
- 「21」(文字列内のタグ位置)
- 「div」(タグ名)
出力
- 「メニュー」(ラベルとして分類)
上記の入力を受け取り、それらをラベル(つまりメニュー)に分類できるニューラルネットワークライブラリ。
すべてのユーザーが正規表現やxpathを作成することはできません。より簡単なアプローチが必要です。そのため、ソフトウェアをインテリジェントにすることが重要です。ユーザーは、ウェブブラウザコントロールを使用して、必要なhtmlドキュメントの一部を強調表示し、できるまでソフトウェアをトレーニングできます。自力で動作します。
しかし、AIを使用してソフトウェアトレインを作成する方法がわかりません。
私が探しているAIは、さまざまな入力を受け入れ、それに基づいて分類できるはずです。すでにAIについては初めて言ったように、それについてはあまり知りません。
どのライブラリを使用すべきか、実装方法、XpathやRegex、またはplsが答えない他の方法を示唆する答えなど、私が尋ねた質問に対する答えを得ることができれば、私には役立ちます。提案ですが、必要なものです。
math - サイクリックベイジアンネットワーク
私はいくつかの要素A、B、C、AB、ABC、..(下の画像を参照)を持っており、各要素は存在するかしないかのどちらかです。このシステムを管理するルールは次のとおりです。ABが存在する場合、AとBも存在する必要があります。一般的に、タペルが存在する場合、このタペルのサブセットであるすべての小さなタペルも存在する必要があります。さらに、タペルが存在しない場合、このタペルのスーパーセットを構成するすべてのタペルが存在するわけではありません。
http://i.stack.imgur.com/8fNl6.gif
例:ABCが存在すると、A、B、C、AB、AC、BCも存在します。BCが存在しない場合、ABC、BCD、ABCDも存在しません。
今私が苦労しているのは、たとえばP(AB | A、B、!ABC)を計算する方法です。これは、Aが存在し、Bが存在し、ABCが存在しない場合にABが存在する確率を意味します。foreach要素iには、基本的な開始確率p(X)があります。これは、制約がない場合にXが存在する可能性がどの程度あるかを示します。通常、システムに境界があるように、事前にA、B、C、D、ABCDの存在を確認します。
私の問題は、これが循環ネットワークであるということです。この数週間、この問題を解決しようとして成功しなかったので、助けていただければ幸いです。状況/制約が与えられた場合に、1つの要素が存在する確率のみを計算したいと思います。ABや!BDなどの要素は独立していないことに注意してください。
c++ - CvNormalBayesClassifier
私は CvNormalBayesClassifier を使用しています。投稿しているコードのように、ランダムなデータでトレーニングしています
問題は、トレーニングのすべての要素が「0」カテゴリにある場合でも、predict() の結果として「1」を取得できることです。もう 1 つの問題は、トレーニング セットのいくつかの値を変更してから分類子を保存しようとしたことです。その結果、トレーニング セットのサイズを変更しない場合 (値がまったく異なる場合でも)、分類器は常に同じであることがわかります。
そんなことがあるものか?トレーニング、保存、予測機能の仕組みを教えてくれる人はいますか? ありがとうございました
java - 事前にトレーニングされたモデルで1つのインスタンスを分類するときに、NaiveBayes分類器でエラーが発生する
125レコードのトレーニング済みデータセットがあります。NaiveBayesUpdatableを使用して新しいインスタンスを分類します。しかし、naiveBayesを(Windowsで、weka 3.4を使用して)実行すると、次のエラーが発生します。
J48分類器を実行すると、問題なく実行されます。
ヘルプ\アイデアをありがとう。
matlab - ベイジアン ネットワークとファジー ロジック
侵入検知に使用されているベイジアン ネットワークとファジー ロジックの例を教えてください。
どのように使用できるかを理解するのに苦労しています。そして、コードはありますか?
みんなありがとう。
machine-learning - ドキュメントの単純ベイズ分類器での長さの正規化
私は単純ベイズ分類器を実装して、本質的に機能のセット(バッグではなく)であるドキュメントを分類しようとしています。つまり、各機能には固有の機能のセットが含まれており、各機能はドキュメントに最大1回表示されます。たとえば、機能をドキュメントの一意のキーワードと考えることができます。
私はレニーらをしっかりとフォローしました。al。http://www.aaai.org/Papers/ICML/2003/ICML03-081.pdfの論文ですが、対処されていないように見える問題が発生しています。つまり、短いドキュメントを分類すると、ドキュメントの特徴の数が少なくなるため、事後確率がはるかに高くなります。長いドキュメントの場合はその逆です。
これは、事後確率が(分母を無視して)次のように定義されているためです。
これはに拡張されます
このことから、乗算する用語が少ないという理由だけで、機能が少ない短いドキュメントの事後確率が高くなることは明らかです。
たとえば、機能「foo」、「bar」、および「baz」がすべてポジティブトレーニング観測に表示されるとします。次に、単一の機能「foo」を持つドキュメントは、機能{"foo"、 "bar"、"baz"}を持つドキュメントよりもポジティブクラスに分類される事後確率が高くなります。これは直感に反しているように見えますが、これを解決する方法がよくわかりません。
実行できるある種の長さの正規化はありますか?ドキュメントのサイズを機能として追加するというアイデアもありますが、トレーニングデータ内のドキュメントのサイズによって結果が歪むため、これは適切ではないようです。
matlab - ファジィクラスタリングニューラルネットワークを使用したベイジアンビリーフネットワーク/システム
多くの研究では、人工ニューラルネットワーク(ANN)は、従来の方法と比較して侵入検知システム(IDS)のパフォーマンスを向上させることができると主張しています。ただし、ANNベースのIDSの場合、特に低頻度の攻撃の検出精度と検出の安定性を強化する必要があります。新しいアプローチはFC-ANNと呼ばれ、ANNとファジークラスタリングに基づいて、問題を解決し、IDSがより高い検出率、より少ない誤検出率、およびより強力な安定性を達成できるようにします。FC-ANNの一般的な手順は次のとおりです。まず、ファジークラスタリング手法を使用してさまざまなトレーニングサブセットを生成します。続いて、さまざまなトレーニングサブセットに基づいて、さまざまなANNモデルがトレーニングされ、さまざまな基本モデルが作成されます。最後に、メタラーナーであるファジー集計モジュールを使用して、これらの結果を集計します。
質問:
ベイジアンビリーフネットワーク/システムをファジークラスタリングニューラルネットワークと組み合わせて侵入検知を行うことは可能でしょうか?
誰かが私が遭遇するかもしれない問題を予見できますか?あなたの入力は最も価値があります。
bayesian - ベイジアン フィルターを使用して複数の出力を作成できますか
ベイジアン フィルターは、バイナリ選択 (スパム: スパムではない、男性: 女性など) によく使用されていることがわかります。複数の値を分類する方法はありますか (例: php+javascript、house+yard)。Naive bayesian classifier - multiple decisionを見てきましたが、複数の出力が可能かどうか知りたいです。
そうでない場合、分類のための他の提案されたアプローチは何ですか (学習の有無にかかわらず)。特にphpの場合。