“classification”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

795 参照

java - Javaの場合-同様の値をグループ化する

まず、私の質問を読んでくれてありがとう。

TF/IDFを使用しました次に、それらの値について、コサイン類似度を計算して、より類似しているドキュメントの数を確認しました。次のマトリックスを見ることができます。列名はdoc1、doc2、doc3のようであり、行名はdoc1、doc2、doc3などのようです。次のマトリックスを使用すると、doc1とdoc4の類似性が72％（0.722711142）であることがわかります。両方の文書が似ているのを見ても正しいです。1000のドキュメントがあり、各ドキュメントの頻度を確認できます。それらの数が類似していることを確認するためにマトリックスで。k-meansやagnes（階層）などのさまざまなクラスタリングを使用してそれらを組み合わせました。それはクラスターを作りました。たとえば、Cluster1には（doc4、doc5、doc3）becozがあり、それぞれ値（0.722711142、0.602301766、0.69912109）が近くなっています。しかし、これら3つのドキュメントが実際に同じであるかどうかを手動で確認すると、そうではありません。：

PS：値は間違っている可能性があります、それはあなたにアイデアを与えるためだけです。ご不明な点がございましたら、お問い合わせください。ありがとう

2010-02-08T16:45:48.113

0 投票する

5 に答える

26105 参照

machine-learning - 高次元の入力空間で機械学習の問題にアプローチするには?

高次元の入力に対して ML アルゴリズム (より具体的には分類、特に SVM) を適用しようとしたときに、満足のいく結果が得られない状況にどのように対処すればよいでしょうか?

1 次元、2 次元、または 3 次元のデータをアルゴリズムの結果と共に視覚化できるため、何が起こっているのかを把握し、問題にアプローチする方法を知ることができます。データが 3 次元を超えると、パラメータを直感的にいじる以外に、どのように攻撃すればよいかよくわかりません。

machine-learning classification svm

2010-02-12T23:42:58.000

0 投票する

1 に答える

136 参照

image - 画像ファイルからの型サンプルの分類

画像で見つかったタイプを自動的に分類するためにどのアプローチを提案しますか? サンプルはおそらく大きく、白い背景に黒いテキストです。

カテゴリはここで定義されており、それぞれにいくつかの例があります (Google ブックスへのリンク): http://bit.ly/9Mnu7Pこれは、VOX-ATypI 分類システムの拡張バージョンです。

これに関する私の最初の考えは、各カテゴリから多くの単一文字サンプルを使用してシステムをトレーニングすることでしたが、一度に 1 文字ずつ比較する必要をなくすより良い方法があるかどうか疑問に思っています。

image machine-learning computer-vision classification

2010-02-15T09:59:25.557

0 投票する

2 に答える

350 参照

filter - フォーラム投稿のベイジアンフィルタリング

ベイジアンフィルターを使用してフォーラムメンバーが投稿を分類できるようにした人はいますか? ベイジアンフィルターは、電子メールスパムの検出に適しているようです。ベイジアンフィルターの実装は、ユーザーのフォーラム投稿をフィルター処理するための実行可能なアプローチですか?

filter classification ranking bayesian forum

2010-02-17T10:17:50.873

0 投票する

2 に答える

9502 参照

machine-learning - SVM分類-各クラスの入力セットの最小数

ウェブページからの広告である画像を検出するアプリを構築しようとしています。それらを検出すると、クライアント側での表示を許可しなくなります。

このStackoverflowの質問に答えた助けから、SVMが私の目標への最良のアプローチであると思いました。

そこで、SVMとSMOを自分でコーディングしました。UCIデータリポジトリから取得したデータセットには3280個のインスタンス（データセットへのリンク）があり、そのうちの約400個は広告画像を表すクラスからのものであり、残りは非広告画像を表すものです。

現在、最初の2800の入力セットを取得してSVMをトレーニングしています。しかし、正解率を調べた後、これらの2800の入力セットのほとんどが非広告画像クラスからのものであることがわかりました。そのため、そのクラスの精度は非常に高くなっています。

だから私はここで何ができますか？トレーニングするためにSVMにいくつの入力セットを与える必要がありますか？また、クラスごとにいくつの入力セットを提供しますか？

ありがとう。乾杯。（前の質問とは文脈が違うので、基本的に新しい質問をしました。ニューラルネットワーク入力データの最適化）

返信いただきありがとうございます。広告クラスと非広告クラスのC値が正しく導出されているかどうかを確認したいと思います。これについてフィードバックをください。

ここに画像の説明を入力してください

または、ここでドキュメントバージョンを確認できます。

ここでy1eqaulからy2へのグラフを見ることができますここに画像の説明を入力してください

ここでy1はy2と等しくありませんここに画像の説明を入力してください

machine-learning classification svm training-data

2010-02-17T20:16:51.577

0 投票する

3 に答える

2603 参照

math - 評価者間合意 (Fleiss の Kappa、Krippendorff の Alpha など) Java API?

修士論文の一環として、質問分類・回答コーパスの構築に取り組んでいます。評価者間の合意/信頼性に関して、予想される回答タイプの分類法を評価しようとしていますが、疑問に思っていました:これを実行できる適切な (できれば無料の) Java API を知っている人はいますか?

この時点で必要なのは、Fleiss の Kappa と Krippendorff の Alpha だけであると確信しています。

Weka はその評価パッケージでカッパ統計を提供しますが、それは分類子しか評価できないと思います。私はまだその段階ではありません (まだデータセットとクラスを構築しているため)。

ありがとう。

math machine-learning nlp classification ontology

2010-02-18T05:08:16.710

0 投票する

3 に答える

16522 参照

machine-learning - 単純な 1 次元のシナリオで推奨される異常検出手法は?

数千のデータインスタンスがあるシナリオがあります。データ自体は、単一の整数値として表されます。インスタンスが極端な外れ値であることを検出できるようにしたいと考えています。

たとえば、次のサンプルデータを使用します。

dは明らかに異常であり、これに基づいて特定のアクションを実行したいと考えています。

私は、特定のドメインに関する知識を使って異常を検出したいと思いました。たとえば、有用な平均値からの距離を把握し、ヒューリスティックに基づいてそれを確認します。ただし、何らかの理論が背後にある、より一般的で堅牢な異常検出手法を調査した方がよいと思います。

私の数学の実用的な知識は限られているので、標準偏差を使用するなど、簡単な手法を見つけたいと思っています。データの単一次元の性質により、これが非常に一般的な問題になることを願っていますが、シナリオに関する詳細情報が必要な場合は、コメントを残してください。詳細をお知らせします.

編集：ある回答が別の回答よりも正しい場合に備えて、データと私が試したことに関する情報を追加すると思いました。

値はすべて正であり、ゼロではありません。値が正規分布を形成することを期待しています。この予想は、分析によるものではなく、ドメインの直感に基づいています。これが悪いことではない場合は、お知らせください。クラスタリングに関して言えば、k 値を選択する標準アルゴリズムも存在しない限り、この値を k-Means アルゴリズムに提供するのは難しいと思います。

外れ値/異常に対して私が取りたいアクションは、それをユーザーに提示し、基本的にデータセットからデータポイントを削除することを推奨することです (彼らがそれを行う方法については触れませんが、それは理にかなっています)したがって、別の関数への入力としては使用されません。

これまでのところ、限られたデータセットでスリーシグマと IQR 外れ値テストを試しました。IQR は極端ではない値にフラグを立てます。スリーシグマは、ドメインの私の直感によりよく適合するインスタンスを指摘します。

この特定のシナリオについて学ぶためのアルゴリズム、テクニック、またはリソースへのリンクに関する情報は有効であり、歓迎すべき回答です。

単純な 1 次元データに対して推奨される異常検出手法は何ですか?

machine-learning classification

2010-02-20T20:05:20.120

0 投票する

3 に答える

7546 参照

matlab - MATLABで相互検証テストを使用するにはどうすればよいですか？

10分割交差検定を使用して、MATLABで離散化を評価したいと思います。まず、属性とクラス列について検討する必要があります。

matlab machine-learning classification

2010-03-07T14:49:45.377

0 投票する

1 に答える

1018 参照

classification - ベイズ分類器で未知のクラスを検出する

一連のクラスに対してトレーニングされたベイズ分類器がある場合、出力がクラスを選択するのに十分重要であるかどうかを検出するにはどうすればよいでしょうか? クラスに割り当てることができないサンプルを検出するのに役立ちます。クラスの確率がすべてのクラスの確率の平均 + 2*stddev を超えているかどうかをテストしてみましたが、堅牢になるとは思いません。

classification bayesian

2010-03-09T10:25:19.457

0 投票する

2 に答える

6724 参照

classification - 適切な分類アルゴリズムを選択してください。線形または非線形？

この質問は少し注意が必要です。多分誰かがこの質問に答えるアプローチを知っています。それが何であるかわからないデータセット（トレーニングデータ）があると想像してください。このデータを分類するための分類アルゴリズムを推測するために、トレーニングデータのどの機能を調べますか？非線形分類アルゴリズムを使用するか線形分類アルゴリズムを使用するかについて、何か言うことができますか？

ちなみに、私はWEKAを使ってデータを分析しています。

助言がありますか？ありがとうございました。

classification weka

2010-03-10T01:58:47.787

問題タブ [classification]

Reference