問題タブ [classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - (人間)文書の言語
ドキュメントがどの言語で書かれているかをおおよそ知る方法(プログラム、ライブラリ)はありますか?
i18n対応のCMS(Drupal)にインポートするために、混合言語のテキストドキュメント(〜500K)がたくさんあります。
完全に一致する必要はありません。推測するだけです。
java - Java を使用した画像分類アルゴリズム
私の目標は、さまざまな画像分類方法を実装して、それらがどのように機能するか、およびそのような方法の背後にある利点と欠点を示すことです。Javaを使用して実装したいものには、次のものがあります。
最小距離分類器
k 最近傍分類器。
アルゴリズムの動作方法を変更できるように、Java に既に存在するタスクを達成するために何を使用できるかを考えていました。
artificial-intelligence - 分類アルゴリズムのパフォーマンスの測定
手に分類の問題があり、機械学習アルゴリズムで対処したいと思います(ベイズ、またはマルコフ、おそらく問題は使用する分類器に依存しません)。トレーニングインスタンスの数を考えると、データの過剰適合の問題を考慮に入れて、実装された分類器のパフォーマンスを測定する方法を探しています。
つまり、N [1..100]のトレーニングサンプルが与えられた場合、すべてのサンプルでトレーニングアルゴリズムを実行し、これとまったく同じサンプルを使用してフィットネスを測定すると、データの過剰適合の問題に陥る可能性があります。分類器はそれを認識します。トレーニングインスタンスの正確な答えは、多くの予測力を持たずに、フィットネス結果を役に立たなくします。
明らかな解決策は、手作業でタグ付けされたサンプルをトレーニングとテストサンプルに分離することです。トレーニング用に統計的に有意なサンプルを選択する方法について学びたいと思います。
ホワイトペーパー、本のポインタ、PDFは大歓迎です!
java - 最高のオープンソースのJavaベイジアンスパムフィルターライブラリは何ですか?
Stackoverflowの他の回答では、Wekaが優れていることが示唆されていますが、他にもあります(Classifier4j、jBNC、Naiban)。
誰かがこれらを実際に経験したことがありますか?
machine-learning - 私が機械学習の問題だと思うものへの最善のアプローチ
問題を解決するための最善のアプローチについて、ここで専門家のガイダンスが必要です。私はいくつかの機械学習、ニューラル ネットワークなどを調査しました。私はweka、ある種のbaesianソリューション.. R..いくつかの異なることを調査しました。しかし、実際にどのように進めるかはわかりません。これが私の問題です。
私はイベントの膨大なコレクションを持っているか、持つ予定です。最終的には約 100,000 ほどになります。各イベントは、いくつか (30 ~ 50) の独立変数と、関心のある 1 つの従属変数で構成されます。従属変数の値を決定する上で、一部の独立変数は他の変数よりも重要です。そして、これらのイベントは時間に関連しています。10 年前の出来事よりも、今日の出来事の方が重要です。
ある種の学習エンジンにイベントを供給し、従属変数を予測できるようにしたいと考えています。次に、このイベント (およびそれ以前に発生したすべてのイベント) の従属変数の真の答えを知っているので、それを使用してその後の推測をトレーニングしたいと考えています。
プログラミングの方向性がわかったら、調査を行い、アイデアをコードに変換する方法を見つけます。しかし、私のバックグラウンドは並列プログラミングであり、このようなものではないので、これに関する提案とガイダンスがあれば幸いです。
ありがとう!
編集: ここで、私が解決しようとしている問題についてもう少し詳しく説明します。それは価格設定の問題です。ランダムな漫画本の価格を予測したいとしましょう。気になるのは価格だけです。しかし、考えつくことができる独立変数はたくさんあります。スーパーマンのコミックか、ハローキティのコミックか。これはどれくらい古いのですか?条件は何ですか?などなど。しばらくトレーニングした後、検討中の漫画に関する情報を提供できるようになり、漫画の妥当な期待値を与えてもらいたいと考えています。わかった。したがって、コミックは偽の例かもしれません。しかし、あなたは一般的な考えを得る。これまでのところ、答えから、サポートベクターマシンとナイーブベイズについていくつかの調査を行っています。これまでご協力いただきありがとうございました。
nlp - NLPは文章/段落を面白いと分類します
特定の文/段落を面白いと分類する方法はありますか。これについてさらにどこに進むべきかについての指針はほとんどありません。
machine-learning - 自然言語処理における二値化
二値化とは、エンティティのカラフルな特徴を数値のベクトル (ほとんどの場合はバイナリ ベクトル) に変換して、分類アルゴリズムの良い例を作成することです。
「The cat ate the dog」という文を二値化する場合、すべての単語に ID (たとえば、cat-1、ate-2、the-3、dog-4 など) を割り当てることから始めて、単語を単純に次のように置き換えることができます。ベクトル <3,1,2,3,4> を与える ID です。
これらの ID が与えられると、各単語に 4 つの可能なスロットを与え、特定の単語に対応するスロットを 1 に設定して、ベクトル <0,0,1,0,1,0,0,0 を与えるバイナリ ベクトルを作成することもできます。 ,0,1,0,0,0,0,0,1>. 後者の方法は、私の知る限り、一般的にバッグ・オブ・ワード法と呼ばれています。
さて、私の質問ですが、一般的な自然言語処理の機能、特に (Nivres アルゴリズムを使用した)遷移ベースの依存関係解析の機能を説明する際に最適な2 値化方法は何ですか?
このコンテキストでは、文全体をエンコードするのではなく、解析の現在の状態 (たとえば、スタックの先頭の単語と入力キューの最初の単語など) をエンコードしたいと考えています。順序は関連性が高いため、bag-of-words-method は除外されます。
bestとは、不必要なメモリを使い果たすことなく、データを分類器にとって最もわかりやすいものにする方法を指しています。たとえば、実際にバイグラムが 2% しか存在しない場合、バイグラムが 20000 の一意の単語に対して 4 億の機能を使用することは望ましくありません。
答えは特定の分類子にも依存するため、最大エントロピー モデル (liblinear)、サポート ベクター マシン (libsvm)、およびパーセプトロンに主に関心がありますが、他のモデルに適用される答えも歓迎します。
classification - 商業利用のための無料の局所分類法(分類システム)
私は完全に無料の無料の分類法を探しています。私の研究では、デューイには法的な問題があります。米国議会図書館分類表は、米国を除いて著作権で保護されています。DMOZはユーザーからの更新が必要です。私が間違っている場合は訂正してください。
それで、商用利用のための完全に無料の分類法はありますか?
私が探しているのは、GoogleDirectoryやYahooDirectoryのようなものです。
tdd - TDD とベイジアン スパム フィルターの問題
ベイジアン分類器がスパムをフィルタリングする効果的な方法であることはよく知られています。これらはかなり簡潔にできますが (私たちのものは数百の LoC にすぎません)、結果を得る前にすべてのコア コードを事前に記述する必要があります。
ただし、TDD アプローチでは、テストに合格するための最小限のコードしか記述できないことが義務付けられているため、次のメソッド シグネチャが与えられます。
次のテキスト文字列は、明らかにスパムです。
私が書くことができるコードの最小量は次のとおりです。
ここで、別のテスト メッセージを追加するかもしれません。
コードを次のように変更できます。
...などなど。ある時点までは、コードは文字列チェックや正規表現などでごちゃごちゃになってしまいます。最初から考えたり、別の方法で書いたりするのではなく、コードを進化させたからです。
では、可能な限り単純なコードからコードを進化させてテストに合格することが適切なアプローチではない、このような状況で TDD はどのように機能するのでしょうか? (特に、最良の実装を自明に進化させることができないことが事前にわかっている場合)。
machine-learning - 電子メールスパム検出のためのニューラルネットワーク
2つのグループに分類された過去数年間に受信した電子メール(約1万通の電子メール)の履歴を持つ電子メールアカウントにアクセスできるとします。
- 本物のメール
- スパム
スパム検出に使用できるニューラルネットワークソリューションを作成するタスクにどのようにアプローチしますか?基本的に、電子メールをスパムまたは非スパムのいずれかに分類しますか?
電子メールのフェッチがすでに行われており、分類部分のみに焦点を当てる必要があると仮定します。
私が答えてもらいたい主なポイントは次のとおりです。
- NNの入力として選択するパラメーターとその理由を教えてください。
- NNのどの構造が、そのようなタスクに最適である可能性が最も高いでしょうか。
また、リソースの推奨事項、または既存の実装(できればC#)は大歓迎です
ありがとうございました
編集
- プロジェクトの主な側面は、スパム検出でNNアプローチがどのように機能するかをテストすることであるため、ニューラルネットワークを使用することにしました。
- また、ニューラルネットワークとスパムの主題を単に調査することは「トイプロブレム」です