問題タブ [naivebayes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python -- SciKit -- Classifer のテキスト特徴抽出
記事をカスタム カテゴリに分類する必要があります。そこで、SciKit から MultinomialNB を選択しました。教師あり学習を行っています。そのため、記事を毎日見てタグ付けする編集者がいます。それらがタグ付けされたら、学習モデルなどに含めます。以下は、私が何をしていて何を使用しているかを理解するためのコードです。(私が何をしているかのアイデアを提供しようとしているだけなので、インポート行は含めていません) (参照)
カスタムタグ付け後の分類子の準備が整いました。これは新しい記事でうまく機能し、魅力のように機能します。ここで、各カテゴリに対して最も頻繁に使用される単語を取得する必要が生じました。つまり、学習したモデルから機能を抽出する必要があります。ドキュメントを調べたところ、学習時にテキストの特徴を抽出する方法しかわかりませんでした。
しかし、学習したらモデル ファイル (.pkl) しか持っていないので、その分類器を読み込んで特徴を抽出することはできますか?
各クラスまたはカテゴリに対して最も頻繁な用語を取得することは可能でしょうか?
r - 適用を使用して 144k 行を処理しようとしていますが、結果が遅すぎます
R でナイーブ ベイズのカスタム修正バージョンを作成していますが、処理中のデータのサイズが原因でランタイムの問題が発生しています。それぞれ 95 個の要素を持つ最大 145,000 行を処理する必要があります。現在、次の関数を使用して、単純ベイズの最初のステップを取得しています。
この関数の sdBreakdown と meanBreakdown は、考えられる各解の集計値です。適用が実行されるたびに、指定された各列の確率が取得されます。適用は、各行が分類しようとしている別の要素であるマトリックスで次のように実行されます。
これが私が現在各申請者を呼び出す方法です。これにより、可能な分類 1 ~ 9 ごとに各要素の確率が得られます。私は、R をよりよく理解しようとしており、いくつかの潜在的な精度の向上を実験したいので、すぐに使用できる Naive Bayes を使用したくありません。
これをよりタイムリーに実行する方法はわかりませんが、コーディングすると数時間かかり、実行中に他のプロジェクトに積極的に取り組んでいる場合は最大で 7 ~ 8 時間かかることがあります。
編集:
この例のデータを明確にするため。
temp は 145kx95 の行列で、各行は分類される項目で、各列は数値で表される品質です。
meanBreakdown は 9x95 行列で、各行は異なる分類であり、各列は分類の平均品質に対応します。
sdBreakdown は meanBreakdown と同じですが、平均ではなく標準偏差が保存されます。
並列処理は機能するように見えますが、データセットが必要なほど大きいとは思いませんでした (明らかに私が間違っていました)。
編集 2: 完全なコードは次のとおりです。とてつもなく悪いRコードでしたらご容赦ください。私はずっと C の開発者だったので、R は考え方の大きな変化であり、R でほんの一握りの小さなプロジェクトを実行して、詳細を学習しただけです。
matlab - MATLAB Naive Bayes オブジェクトの保存
使用後:
単純ベイズ分類器オブジェクトを作成するには、これらのオブジェクトの N 行 D 列を行列に保存します。私は次のことをしようとしました
しかし、「NaiveBayes/subsasgn の使用中にエラーが発生しました (9 行目) NaiveBayes クラスは添字付きの割り当てをサポートしていません。」
MATLAB で単純ベイズ分類器の行列を埋めるにはどうすればよいでしょうか?
fitNaiveBayes または fitcnb を使用すると、どちらも同じ種類のオブジェクトが返されるため、同じ問題が発生することに注意してください。
ありがとうございました
python-2.7 - Python PandasでNLTKから単純ベイズを実行するには?
機能 (人の名前) とラベル (人の民族) を含む csv ファイルがあります。Python Pandas を使用してデータ フレームをセットアップできますが、それを NLTK モジュールとリンクしてナイーブ ベイズを実行しようとすると、次のエラーが発生します。
これが私のコードです:
サンプルデータ:
python - Naive Bayes Multinomial
I am working with naive bayes multinomial model. I am supposed to use the pseudo code seen in the train method. So those are my questions:
1)I have put most code in but I have some problems mainly in extracting the vocabulary, counting the number of documents in the class, and concatenate the text of all docs in class.
2)I also noticed that the train method I need only requires the documents(aka train_doc). So I have no idea how to tweak to obtain C which is the class.
python - scikit Learnでパイプラインオブジェクトの最終推定器の属性を使用することは可能ですか?
countvectorizer と MultinomialNB を使用するパイプライン オブジェクトを作成しました。MultinomialNB インスタンスには、intercept_ という名前の属性があります。Pipeline オブジェクトを使用してこの属性にアクセスしようとすると、「Pipeline」オブジェクトに属性「intercept_」がないというエラーが表示されます。Pipeline インスタンスで最終推定器クラスの属性にアクセスする方法があるかどうか疑問に思っています。よろしくお願いします。