問題タブ [classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Javaの場合-同様の値をグループ化する
まず、私の質問を読んでくれてありがとう。
TF/IDFを使用しました次に、それらの値について、コサイン類似度を計算して、より類似しているドキュメントの数を確認しました。次のマトリックスを見ることができます。列名はdoc1、doc2、doc3のようであり、行名はdoc1、doc2、doc3などのようです。次のマトリックスを使用すると、doc1とdoc4の類似性が72%(0.722711142)であることがわかります。両方の文書が似ているのを見ても正しいです。1000のドキュメントがあり、各ドキュメントの頻度を確認できます。それらの数が類似していることを確認するためにマトリックスで。k-meansやagnes(階層)などのさまざまなクラスタリングを使用してそれらを組み合わせました。それはクラスターを作りました。たとえば、Cluster1には(doc4、doc5、doc3)becozがあり、それぞれ値(0.722711142、0.602301766、0.69912109)が近くなっています。しかし、これら3つのドキュメントが実際に同じであるかどうかを手動で確認すると、そうではありません。:
PS:値は間違っている可能性があります、それはあなたにアイデアを与えるためだけです。ご不明な点がございましたら、お問い合わせください。ありがとう
machine-learning - 高次元の入力空間で機械学習の問題にアプローチするには?
高次元の入力に対して ML アルゴリズム (より具体的には分類、特に SVM) を適用しようとしたときに、満足のいく結果が得られない状況にどのように対処すればよいでしょうか?
1 次元、2 次元、または 3 次元のデータをアルゴリズムの結果と共に視覚化できるため、何が起こっているのかを把握し、問題にアプローチする方法を知ることができます。データが 3 次元を超えると、パラメータを直感的にいじる以外に、どのように攻撃すればよいかよくわかりません。
image - 画像ファイルからの型サンプルの分類
画像で見つかったタイプを自動的に分類するためにどのアプローチを提案しますか? サンプルはおそらく大きく、白い背景に黒いテキストです。
カテゴリはここで定義されており、それぞれにいくつかの例があります (Google ブックスへのリンク): http://bit.ly/9Mnu7Pこれは、VOX-ATypI 分類システムの拡張バージョンです。
これに関する私の最初の考えは、各カテゴリから多くの単一文字サンプルを使用してシステムをトレーニングすることでしたが、一度に 1 文字ずつ比較する必要をなくすより良い方法があるかどうか疑問に思っています。
filter - フォーラム投稿のベイジアン フィルタリング
ベイジアン フィルターを使用してフォーラム メンバーが投稿を分類できるようにした人はいますか? ベイジアン フィルターは、電子メール スパムの検出に適しているようです。ベイジアン フィルターの実装は、ユーザーのフォーラム投稿をフィルター処理するための実行可能なアプローチですか?
machine-learning - SVM分類-各クラスの入力セットの最小数
ウェブページからの広告である画像を検出するアプリを構築しようとしています。それらを検出すると、クライアント側での表示を許可しなくなります。
このStackoverflowの質問に答えた助けから、SVMが私の目標への最良のアプローチであると思いました。
そこで、SVMとSMOを自分でコーディングしました。UCIデータリポジトリから取得したデータセットには3280個のインスタンス(データセットへのリンク)があり、そのうちの約400個は広告画像を表すクラスからのものであり、残りは非広告画像を表すものです。
現在、最初の2800の入力セットを取得してSVMをトレーニングしています。しかし、正解率を調べた後、これらの2800の入力セットのほとんどが非広告画像クラスからのものであることがわかりました。そのため、そのクラスの精度は非常に高くなっています。
だから私はここで何ができますか?トレーニングするためにSVMにいくつの入力セットを与える必要がありますか?また、クラスごとにいくつの入力セットを提供しますか?
ありがとう。乾杯。(前の質問とは文脈が違うので、基本的に新しい質問をしました。ニューラルネットワーク入力データの最適化)
返信いただきありがとうございます。広告クラスと非広告クラスのC値が正しく導出されているかどうかを確認したいと思います。これについてフィードバックをください。
または、ここでドキュメントバージョンを確認できます。
ここでy1eqaulからy2へのグラフを見ることができます
ここでy1はy2と等しくありません
math - 評価者間合意 (Fleiss の Kappa、Krippendorff の Alpha など) Java API?
修士論文の一環として、質問分類・回答コーパスの構築に取り組んでいます。評価者間の合意/信頼性に関して、予想される回答タイプの分類法を評価しようとしていますが、疑問に思っていました:これを実行できる適切な (できれば無料の) Java API を知っている人はいますか?
この時点で必要なのは、Fleiss の Kappa と Krippendorff の Alpha だけであると確信しています。
Weka はその評価パッケージでカッパ統計を提供しますが、それは分類子しか評価できないと思います。私はまだその段階ではありません (まだデータセットとクラスを構築しているため)。
ありがとう。
machine-learning - 単純な 1 次元のシナリオで推奨される異常検出手法は?
数千のデータ インスタンスがあるシナリオがあります。データ自体は、単一の整数値として表されます。インスタンスが極端な外れ値であることを検出できるようにしたいと考えています。
たとえば、次のサンプル データを使用します。
d
は明らかに異常であり、これに基づいて特定のアクションを実行したいと考えています。
私は、特定のドメインに関する知識を使って異常を検出したいと思いました。たとえば、有用な平均値からの距離を把握し、ヒューリスティックに基づいてそれを確認します。ただし、何らかの理論が背後にある、より一般的で堅牢な異常検出手法を調査した方がよいと思います。
私の数学の実用的な知識は限られているので、標準偏差を使用するなど、簡単な手法を見つけたいと思っています。データの単一次元の性質により、これが非常に一般的な問題になることを願っていますが、シナリオに関する詳細情報が必要な場合は、コメントを残してください。詳細をお知らせします.
編集:ある回答が別の回答よりも正しい場合に備えて、データと私が試したことに関する情報を追加すると思いました。
値はすべて正であり、ゼロではありません。値が正規分布を形成することを期待しています。この予想は、分析によるものではなく、ドメインの直感に基づいています。これが悪いことではない場合は、お知らせください。クラスタリングに関して言えば、k 値を選択する標準アルゴリズムも存在しない限り、この値を k-Means アルゴリズムに提供するのは難しいと思います。
外れ値/異常に対して私が取りたいアクションは、それをユーザーに提示し、基本的にデータセットからデータポイントを削除することを推奨することです (彼らがそれを行う方法については触れませんが、それは理にかなっています)したがって、別の関数への入力としては使用されません。
これまでのところ、限られたデータセットでスリーシグマと IQR 外れ値テストを試しました。IQR は極端ではない値にフラグを立てます。スリーシグマは、ドメインの私の直感によりよく適合するインスタンスを指摘します。
この特定のシナリオについて学ぶためのアルゴリズム、テクニック、またはリソースへのリンクに関する情報は有効であり、歓迎すべき回答です。
単純な 1 次元データに対して推奨される異常検出手法は何ですか?
matlab - MATLABで相互検証テストを使用するにはどうすればよいですか?
10分割交差検定を使用して、MATLABで離散化を評価したいと思います。まず、属性とクラス列について検討する必要があります。
classification - ベイズ分類器で未知のクラスを検出する
一連のクラスに対してトレーニングされたベイズ分類器がある場合、出力がクラスを選択するのに十分重要であるかどうかを検出するにはどうすればよいでしょうか? クラスに割り当てることができないサンプルを検出するのに役立ちます。クラスの確率がすべてのクラスの確率の平均 + 2*stddev を超えているかどうかをテストしてみましたが、堅牢になるとは思いません。
classification - 適切な分類アルゴリズムを選択してください。線形または非線形?
この質問は少し注意が必要です。多分誰かがこの質問に答えるアプローチを知っています。それが何であるかわからないデータセット(トレーニングデータ)があると想像してください。このデータを分類するための分類アルゴリズムを推測するために、トレーニングデータのどの機能を調べますか?非線形分類アルゴリズムを使用するか線形分類アルゴリズムを使用するかについて、何か言うことができますか?
ちなみに、私はWEKAを使ってデータを分析しています。
助言がありますか?ありがとうございました。