問題タブ [training-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 国と首都の分類器(TrainingSet)を作成する方法は?
文に国名または首都が含まれているかどうかを検出したい (つまり、エジプト、カイロ、アメリカ、ワシントン、インド、ニューデリー、ケウィット、トラブロス、パリなど) すべての国名を含むファイルを作成したいそのファイルでバイナリ検索を行い、一致するものがあるかどうかを確認します。バイナリ検索またはデータ ファイルのあらゆる種類の検索を行う準備 (分類子) を取得する方法についてのアイデアは役に立ちます。
matlab - RBFカーネルの場合のサポートベクターと精度の関係
RBFカーネルのMATLAB関数を使用しています。いくつかのデータセットでは、シグマ値を増やしていくと、サポートベクターの数が増えて精度が上がります。1つのデータセットの場合、シグマ値を増やすと、サポートベクターが減少し、精度が向上します。RBFカーネルの場合、サポートベクターと精度の関係を分析できません。
machine-learning - トレーニング値の推定と重みの調整に関する特定の機械学習クエリ
こんにちは、私は機械学習の分野に本当に慣れていません。最近、Tom Mitchell による Machine Learning という本を読み始めました。最初の章の特定のセクションで、彼がトレーニング値の推定と重みの調整について話しているところに行き詰まっています。トレーニング値を推定する概念の説明は素晴らしいですが、これらすべてを説明するのは簡単ではないことを理解しています。そのため、誰かが私にリソース (講義ビデオ、または簡単な講義スライド、またはいくつかのテキスト スニペット) は、トレーニング データの推定などの概念について説明しています。
繰り返しになりますが、私が求めている質問に関してこれ以上の情報を提供することはできません. この本のセクションは、「Tom Mitchell による機械学習」の 1.2.4.1 および 1.2.4.2 です。
前もって感謝します。
image-processing - ノイズの多いデータに対する画像処理アルゴリズムのテスト
画像内のオブジェクトを認識するように分類器をトレーニングする画像処理プログラムを作成しました。次に、ノイズに対するアルゴリズムの応答をテストしたいと思います。アルゴリズムにノイズに対する堅牢性があればいいのにと思います。
私の質問は、ノイズの多いバージョンのトレーニング データセットを使用して分類器をトレーニングするか、元のバージョンのデータセットを使用して分類器をトレーニングし、ノイズの多いデータでのパフォーマンスを確認する必要があるかということです。
ありがとうございました。
c++ - OpenCVの「オブジェクト検出」のためのHOG機能に基づくSVM分類器
画像内のオブジェクトを検出したいプロジェクトがあります。私の目的はHOG機能を使用することです。OpenCV SVM実装を使用することで、人を検出するためのコードを見つけることができ、人ではなくオブジェクトを検出するためのパラメーターの調整に関するいくつかの論文を読みました。残念ながら、いくつかの理由でそれを行うことができませんでした。まず第一に、私はおそらくパラメーターを間違って調整しています、第二に、私はC ++の優れたプログラマーではありませんが、C ++ / OpenCVでそれを行う必要があります...ここでは、人々のHOG機能を検出するためのコードを見つけることができますC ++/OpenCVを使用します。
この画像でオブジェクトを検出したいとします。ここで、コードで変更しようとしたものを示しますが、うまくいきませんでした。
私が変更しようとしたコード:
次のパラメータで変更しようとしましgetDefaultPeopleDetector()たが、機能しませんでした。
次にベクトルを作成しようとしましたが、結果を印刷したいのですが、空のようです。
どうか、この問題を解決するのに助けが必要です。
image-processing - 手書き認識用のトレーニングセット画像に最適なサイズはどれくらいですか
ニューラルネットワーク(フィードフォワードバックプロパゲーション法)を使用したオフライン手書き認識アプリケーションを開発しています。孤立したキャラクターのトレーニングセット画像の正規化されたサイズについて混乱しています。現在、私は32*32ピクセルを考えています。これについて私を助けてください、そしてこの問題に関する特定の考慮事項はありますか?ありがとうございました!!
tagging - 自動トピックタグ付け用の MALLET - トレーニングデータ付き
すでにタグ付けした文書のコーパスがあります。さまざまなトピックに関連する約 400 個のタグのリストを修正しました。各ドキュメントは、1 つ以上のタグと短いタイトルでタグ付けされています。(私はタイトルのより大きなリストも持っています - ドキュメントに非常に類似したコンテンツが含まれている場合、私はしばしば再利用します)
既存のドキュメントにタグを付けた方法に基づいて、コーパスに追加する新しいドキュメントのタグ/タイトルを (既存のリストから) 提案するインターフェイスを作成したいと考えています。
既存のタグ付きデータがない場合にテキストを分析するのに最適な、確率論的トピック モデル LDA クラスについて読んだことがあります。しかし、既存の作品を組み込む方法がわかりません。
任意の提案をいただければ幸いです。
敬具
スワミ
opencv - OpenCV 反復ランダム フォレスト トレーニング
私は論文プロジェクトの分類子としてランダム フォレスト アルゴリズムを使用しています。トレーニング セットは数千の画像で構成され、画像ごとに約 2000 ピクセルがサンプリングされます。ピクセルごとに、何十万もの機能があります。私の現在のハードウェア制限 (8G RAM、おそらく 16G まで拡張可能) では、1 つの画像のサンプル (つまり、ピクセルあたりの特徴) をメモリに収めることができます。私の質問は次のとおりです。毎回異なる画像のサンプルを使用して train メソッドを複数回呼び出し、呼び出しごとに統計モデルを自動的に更新することは可能ですか? 機能セット全体を使用して完全なトレーニング セットをトレーニングした後、機能の数を数十万から約 2000 に減らし、最も重要なものだけを保持することを考えているため、変数の重要度に特に関心があります。
アドバイスをありがとう、ダニエレ
java - ニューラルネットワークでトレーニングセットをどのようにモデル化する必要がありますか?
私はばかげた混乱を持っていますが、それは私をとても悩ませています。スパム検出のためにANNを作成する必要があります。これまで、メールのtfidfベクトルを開発し、その行列のPCAを個別に計算するためのモジュールを開発してきました。問題は、私のメールが受信トレイから直接読み取られていることです。トレーニングでは、スパムボックスを使用してから、未読メールのベクターを作成するために使用されたものと同じクラスを使用することを望んでいましたが、スパムとしてラベルを付けるにはどうすればよいですか?
私はこのようなものを開発する必要があります
最初の引数は、PCAを介して次元削減されたmailVectorであり、整数はラベル1-スパムおよび非スパムの場合は0であり、ベクトルをファイルに書き込んでそれらから読み取りますか?または、コードを柔軟にして、現在の受信トレイから直接読み取るのではなく、既存のハムとスパムのセットからオンラインで読み取り、それらをメールオブジェクトとしてモデル化する必要があります[件名などのメンバーを定義するMailMessageクラスがあります、本文、メールベクトルなどのメールを作成し、これを使用して用語インデックスを作成し、最後にベクトルを作成します]、ベクトルを作成し、トレーニングセットを作成します。トレーニング後、受信トレイを読み取らせることができますか?
任意の洞察をいただければ幸いです!
testing - 半教師あり学習のテストデータ
半教師あり学習では、ラベル付きデータ(L)のセットを使用してモデルをトレーニングし、ラベルなしデータ(U)のセットを予測してから、新しいラベル付きデータ(L')と元のラベル付きデータ(L)を完全なラベル付きデータとしてグループ化します。データ。
テストデータの抽出方法をお聞きしたいと思います。
- (L union L')からテストデータを抽出する必要があります
- (L)からテストデータを抽出する必要があります
どちらが正しいですか?
テストデータが(L union L')から抽出された場合、L'の答えが間違っている可能性があるため、結果は意味がありません...?
================================================== ========新規編集
私は別の考えを持っています.....
3.最初に、ラベル付けされたデータ(L)をトレーニングデータ(L_train)とテストデータ(L_test)に分割する必要があります。
次に、L_trainを使用してモデルをトレーニングし、それを使用してラベルなしデータのセット(U)を予測し、予測結果(L')とL_trainをグループ化します。
そして、(L_train union L')を使用して、L_testでテストするモデルをトレーニングします。
1,2,3のどちらが正しいですか?返信ありがとうございます。