問題タブ [classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - ベクトル空間モデルでテキスト分類を実行するための優れた Java ライブラリを教えてください。
複数のドキュメントのベクトル空間表現を抽出し、それらの間のコサイン距離を計算する必要があります。
その距離を使用して、k-Nearest-Neighbor アプローチを使用していくつかの新しいドキュメントを分類したいと思います。
私が使用できるライブラリについて何か提案はありますか?
これまでのところ、Weka と Apache Lucene の両方がベクトル空間モデルをサポートする必要があることがわかりましたが、どちらが私のニーズに最も適していると思いますか?
machine-learning - 分類でも回帰でもないものを表す正しい用語は何ですか?
基本的に分類の問題があるとしましょう。つまり、いくつかの入力といくつかの可能な出力クラスが与えられた場合、与えられた入力の正しいクラスを見つけます。ニューラル ネットワークと決定木は、このような問題を解決するために使用できるアルゴリズムの一部です。ただし、これらのアルゴリズムは通常、結果の分類のみを出力します。
では、1 つの分類だけに関心があるのではなく、入力が各クラスに属する事後確率に関心があるとしたらどうでしょう。IE、「この入力はクラス A に属します」という回答の代わりに、「この入力はクラス A に 80%、クラス B に 15%、クラス C に 5% 属します」という回答が必要です。
私の質問は、これらの事後確率を取得する方法ではなく、それらを見つけるプロセスを説明する正しい用語についてです。これを回帰と呼ぶこともできます。現在、実数値の数を推定しようとしているためです。しかし、それが正しいかどうかはよくわかりません。正確な分類でもなく、両者の中間に位置するものだと思います。
一部の入力が可能な出力クラスのそれぞれに属するクラスの条件付き事後確率を見つけるプロセスを説明する言葉はありますか?
PSこの質問がプログラミングの質問として十分かどうかは正確にはわかりませんが、機械学習に関するものであり、機械学習には一般的にかなりの量のプログラミングが必要なので、試してみましょう.
algorithm - 最も近い一致を見つける
次のような一連のパラメーターを持つオブジェクトがあります。
反対側には、オブジェクトのリストがあります:
リストされたオブジェクトの最初のオブジェクトに最も近いものを見つけるための最良の (最も簡単な) アルゴリズムは何ですか?
machine-learning - まれなイベントの検出
人々がまれなイベントの検出に使用するアルゴリズムへの良い参照はありますか? また、時間要素はどのように考慮されますか? 連続するデータ ポイントが何か (t_1 から t_n) を伝えるケースがある場合、これを通常の機械学習シナリオにどのように織り込むことができますか?
任意のポインタをいただければ幸いです。
matlab - MATLABの特徴選択方法?
私はMATLABでSVMを使用してテキスト分類を行おうとしていますが、MATLABに特徴選択の方法(Chi Sq。、MI、....)があるかどうかを本当に知りたいのですが、さまざまな方法を試し、維持する必要があるためです。最良の方法は、それらすべてを実装する時間がないことです。そのため、MATLABでそのようなメソッドを探しています。誰か知っていますか?
r - ドキュメント分類の決定木
こんにちは私は、ドキュメント分類に決定木を使用することが可能であるかどうかを知りたいと思いました。そうであれば、データ表現はどのようにすべきですか?デシジョンツリーにRパッケージパーティを使用していることを知っています。
image - シンボル/画像を分類するためのアドバイス
文字と記号の分類が必要なプロジェクトに取り組んでいます(基本的には、単一のASCII文字と楽譜などの記号を処理する必要があるOCR)。私はベクターグラフィックス(WPFのパスとグリフ)を使用しているので、画像は任意の解像度にすることができ、回転は無視できます。トレーニングセットにないフォントとパスを分類する(そしておそらくそこから学ぶ)必要があります。高精度が優先されますが、パフォーマンスは重要です。
Emgu CV(OpenCVの.Netラッパー)を使用した画像検出の例をいくつか見てきました。しかし、私が見つけた例とチュートリアルは、分類ではなく画像検出を具体的に扱っているようです。大きな画像内で画像のインスタンスを見つける必要はありません。画像内のシンボルの種類を決定するだけです。
うまくいく可能性のある方法は多岐にわたるようで、どこから始めればよいのかわかりません。アドバイスや役立つリンクをいただければ幸いです。
text - NLPを使用して、構造化されていないテキストコンテンツを個別の段落に分割するにはどうすればよいですか?
次の非構造化テキストには、スタローン、フィラデルフィア、アメリカ独立戦争の3つの異なるテーマがあります。しかし、このコンテンツを個別の段落に分割するためにどのアルゴリズムまたは手法を使用しますか?
この状況では、分類子は機能しません。また、Jaccard類似性アナライザーを使用して連続する文間の距離を見つけ、連続する文が指定された値よりも小さい場合は、連続する文を1つの段落にグループ化しようとしました。より良い方法はありますか?
これは私のテキストサンプルです:
シルベスター・スタレンツィオ・スタローンは、スライ・スタローンの愛称で呼ばれ、アメリカの俳優、映画製作者、脚本家です。スタローンは、彼のマッチョとハリウッドのアクションの役割で知られています。スタローンの映画ロッキーは、国立フィルム登録簿に登録され、その映画の小道具はスミソニアン博物館に置かれました。スタローンがロッキーシリーズのフィラデルフィア美術館の正面玄関を使用したことで、この地域はロッキーステップと呼ばれるようになりました。商業、教育、文化の中心地であるフィラデルフィアは、かつて大英帝国で2番目に大きな都市でした(ロンドンに次ぐ)。 )、および元の13のアメリカの植民地の社会的および地理的中心。それは初期のアメリカの歴史の目玉であり、アメリカ独立戦争と独立を生み出した多くのアイデアと行動のホストでした。アメリカ独立戦争は18世紀後半の政治的混乱であり、北アメリカの13の植民地が一緒になって大英帝国から脱却し、合体してアメリカ合衆国になりました。彼らは最初に、代表なくして海外から彼らを統治するという英国議会の権限を拒否し、次にすべての王室の役人を追放した。1774年までに、各植民地は、個々の自治植民地を形成するために、植民地議会または同等の政府機関を設立しました。その後、すべての王室の役人を追放しました。1774年までに、各植民地は、個々の自治植民地を形成するために、植民地議会または同等の政府機関を設立しました。その後、すべての王室の役人を追放しました。1774年までに、各植民地は、個々の自治植民地を形成するために、植民地議会または同等の政府機関を設立しました。
python - 低解像度の入力行列を使用して奇数の角度で長方形を測定する(線形回帰分類?)
私は次の問題を解決しようとしています:
たとえば、
フィールド内のすべての長方形の幅と高さを見つける必要があります。入力は実際には一度に1つの列であり(スキャナーが左から右に移動するように考えてください)、プログラムの期間中は継続します(つまり、スキャン列は移動しませんが、長方形はその上を移動します)。
この例では、「長方形が始まるのを待つ」(つまり、ゼロが1に変わるのを待つ)、次にそれが終わるのを見る(1がゼロに戻る)のを見て、「グリッド単位」でピースを測定できます。これは、上記の単純なケースでは問題なく機能しますが、長方形が斜めに傾いている場合は失敗します。次に例を示します。
私は当初、次の質問が当てはまると思っていました。
でも今はよくわかりません。
回帰または回帰テストの経験はほとんどまたはまったくありませんが、これを8つの変数の入力として表すことができると思います。
正直なところ、これをどのように行うかはまったくわかりません。コードのこの部分が抽出するサイズは、既知のサイズの長方形(つまり、データベースから)に適合させる必要があります。
当初は、既知のデータをトレーニング演習として提供し、陽性のテスト結果を保存できると思っていましたが、ここからどこに行けばよいのかよくわかりません。
あなたが持っているかもしれないアドバイスをありがとう。
c++ - インクリメンタルディシジョンツリーC++の実装
決定木分類器の増分実装を知っている人はいますか。少ない計算でトレーニングセットに新しいインスタンスを追加し、既存の決定木分類器に従って可能な限り迅速に、最適な決定木分類器を生成できるようにするには?
言い換えると、T_1という名前のセットAの最適な決定木分類子があります。次に、インスタンスXをセットAに追加し、セット{A、X}のT_1とXを利用して最適な決定木分類子ツリーT_2を見つけます。 。
インスタンスの追加は数回行われます。したがって、毎回ツリーを構築するのではなく、インクリメンタルな方法を見つけることは私にとって価値があります。
実際、そのような実装が存在するかどうかは疑わしいです。誰かが私を助けてくれたらありがたいです。もしあれば、私はC++のコードを好みます。
ありがとう