“classification”の関連問題_Stack Overflow日本語サイト

0 投票する

5 に答える

940 参照

nlp - （人間）文書の言語

ドキュメントがどの言語で書かれているかをおおよそ知る方法（プログラム、ライブラリ）はありますか？

i18n対応のCMS（Drupal）にインポートするために、混合言語のテキストドキュメント（〜500K）がたくさんあります。

完全に一致する必要はありません。推測するだけです。

2008-11-02T18:01:12.693

0 投票する

2 に答える

7754 参照

java - Java を使用した画像分類アルゴリズム

私の目標は、さまざまな画像分類方法を実装して、それらがどのように機能するか、およびそのような方法の背後にある利点と欠点を示すことです。Javaを使用して実装したいものには、次のものがあります。

最小距離分類器

k 最近傍分類器。

アルゴリズムの動作方法を変更できるように、Java に既に存在するタスクを達成するために何を使用できるかを考えていました。

java algorithm image classification

cssfrank

2008-11-29T19:05:49.943

0 投票する

2 に答える

2082 参照

artificial-intelligence - 分類アルゴリズムのパフォーマンスの測定

手に分類の問題があり、機械学習アルゴリズムで対処したいと思います（ベイズ、またはマルコフ、おそらく問題は使用する分類器に依存しません）。トレーニングインスタンスの数を考えると、データの過剰適合の問題を考慮に入れて、実装された分類器のパフォーマンスを測定する方法を探しています。

つまり、N [1..100]のトレーニングサンプルが与えられた場合、すべてのサンプルでトレーニングアルゴリズムを実行し、これとまったく同じサンプルを使用してフィットネスを測定すると、データの過剰適合の問題に陥る可能性があります。分類器はそれを認識します。トレーニングインスタンスの正確な答えは、多くの予測力を持たずに、フィットネス結果を役に立たなくします。

明らかな解決策は、手作業でタグ付けされたサンプルをトレーニングとテストサンプルに分離することです。トレーニング用に統計的に有意なサンプルを選択する方法について学びたいと思います。

ホワイトペーパー、本のポインタ、PDFは大歓迎です！

artificial-intelligence machine-learning nlp classification bayesian

Silver Dragon

2009-01-02T11:09:53.533

0 投票する

3 に答える

5437 参照

java - 最高のオープンソースのJavaベイジアンスパムフィルターライブラリは何ですか？

Stackoverflowの他の回答では、Wekaが優れていることが示唆されていますが、他にもあります（Classifier4j、jBNC、Naiban）。

誰かがこれらを実際に経験したことがありますか？

java machine-learning spam-prevention classification bayesian

Jason Cohen

2009-01-26T17:47:41.230

0 投票する

9 に答える

1279 参照

machine-learning - 私が機械学習の問題だと思うものへの最善のアプローチ

問題を解決するための最善のアプローチについて、ここで専門家のガイダンスが必要です。私はいくつかの機械学習、ニューラルネットワークなどを調査しました。私はweka、ある種のbaesianソリューション.. R..いくつかの異なることを調査しました。しかし、実際にどのように進めるかはわかりません。これが私の問題です。

私はイベントの膨大なコレクションを持っているか、持つ予定です。最終的には約 100,000 ほどになります。各イベントは、いくつか (30 ～ 50) の独立変数と、関心のある 1 つの従属変数で構成されます。従属変数の値を決定する上で、一部の独立変数は他の変数よりも重要です。そして、これらのイベントは時間に関連しています。10 年前の出来事よりも、今日の出来事の方が重要です。

ある種の学習エンジンにイベントを供給し、従属変数を予測できるようにしたいと考えています。次に、このイベント (およびそれ以前に発生したすべてのイベント) の従属変数の真の答えを知っているので、それを使用してその後の推測をトレーニングしたいと考えています。

プログラミングの方向性がわかったら、調査を行い、アイデアをコードに変換する方法を見つけます。しかし、私のバックグラウンドは並列プログラミングであり、このようなものではないので、これに関する提案とガイダンスがあれば幸いです。

ありがとう！

編集: ここで、私が解決しようとしている問題についてもう少し詳しく説明します。それは価格設定の問題です。ランダムな漫画本の価格を予測したいとしましょう。気になるのは価格だけです。しかし、考えつくことができる独立変数はたくさんあります。スーパーマンのコミックか、ハローキティのコミックか。これはどれくらい古いのですか？条件は何ですか？などなど。しばらくトレーニングした後、検討中の漫画に関する情報を提供できるようになり、漫画の妥当な期待値を与えてもらいたいと考えています。わかった。したがって、コミックは偽の例かもしれません。しかし、あなたは一般的な考えを得る。これまでのところ、答えから、サポートベクターマシンとナイーブベイズについていくつかの調査を行っています。これまでご協力いただきありがとうございました。

machine-learning modeling neural-network classification regression

Kirby

2009-02-07T00:45:17.130

0 投票する

5 に答える

2580 参照

nlp - NLPは文章/段落を面白いと分類します

特定の文/段落を面白いと分類する方法はありますか。これについてさらにどこに進むべきかについての指針はほとんどありません。

nlp classification

Sundarram P.V.

2009-02-14T11:14:01.400

0 投票する

3 に答える

2800 参照

machine-learning - 自然言語処理における二値化

二値化とは、エンティティのカラフルな特徴を数値のベクトル (ほとんどの場合はバイナリベクトル) に変換して、分類アルゴリズムの良い例を作成することです。

「The cat ate the dog」という文を二値化する場合、すべての単語に ID (たとえば、cat-1、ate-2、the-3、dog-4 など) を割り当てることから始めて、単語を単純に次のように置き換えることができます。ベクトル <3,1,2,3,4> を与える ID です。

これらの ID が与えられると、各単語に 4 つの可能なスロットを与え、特定の単語に対応するスロットを 1 に設定して、ベクトル <0,0,1,0,1,0,0,0 を与えるバイナリベクトルを作成することもできます。 ,0,1,0,0,0,0,0,1>. 後者の方法は、私の知る限り、一般的にバッグ・オブ・ワード法と呼ばれています。

さて、私の質問ですが、一般的な自然言語処理の機能、特に (Nivres アルゴリズムを使用した)遷移ベースの依存関係解析の機能を説明する際に最適な2 値化方法は何ですか?

このコンテキストでは、文全体をエンコードするのではなく、解析の現在の状態 (たとえば、スタックの先頭の単語と入力キューの最初の単語など) をエンコードしたいと考えています。順序は関連性が高いため、bag-of-words-method は除外されます。

bestとは、不必要なメモリを使い果たすことなく、データを分類器にとって最もわかりやすいものにする方法を指しています。たとえば、実際にバイグラムが 2% しか存在しない場合、バイグラムが 20000 の一意の単語に対して 4 億の機能を使用することは望ましくありません。

答えは特定の分類子にも依存するため、最大エントロピーモデル (liblinear)、サポートベクターマシン (libsvm)、およびパーセプトロンに主に関心がありますが、他のモデルに適用される答えも歓迎します。

machine-learning nlp classification libsvm

Sebastian

2009-02-23T20:31:55.623

0 投票する

1 に答える

420 参照

classification - 商業利用のための無料の局所分類法（分類システム）

私は完全に無料の無料の分類法を探しています。私の研究では、デューイには法的な問題があります。米国議会図書館分類表は、米国を除いて著作権で保護されています。DMOZはユーザーからの更新が必要です。私が間違っている場合は訂正してください。

それで、商用利用のための完全に無料の分類法はありますか？

私が探しているのは、GoogleDirectoryやYahooDirectoryのようなものです。

classification taxonomy

Timothy Chung

2009-02-27T13:23:40.550

問題タブ [classification]

Reference