問題タブ [classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
matlab - 分類境界をプロットしていますか?
Matlab でロジスティック回帰を使用して取得したモデルの分類境界をプロットしたいと思います。Matlab 以外のソリューションは大歓迎ですが、修正のために Logistic Regression コードにアクセスする必要があります。
c# - Twitter の感情分析プロジェクト用に、C# でオープン ソースの単純なベイジアン分類子を探しています
ここで同様のプロジェクトを見つけました:Sentiment analysis for Twitter in Python。ただし、私は C# に取り組んでおり、同じ言語でオープン ソースの単純なベイジアン分類子を使用する必要があります。同じ目標を達成するためにpython Bayesian Classifierを利用する方法を誰かが明らかにできない限り。何か案は?
machine-learning - ID3実装では、その時点でアルゴリズムの再帰は停止する必要があります
ID3の実装では、その時点でアルゴリズムの再帰が停止するはずです。
machine-learning - コンピュータ サイエンスの卒業生は、利用可能な機械学習フレームワークを適用するために、どのような科目、トピックを学ぶ必要がありますか。SVM
まず、次のようなことを可能にする利用可能なオープンソース ML フレームワークを使用するために十分に理解できるように、十分な機械学習を独学で学びたいと考えています。
特定のサイトのページの HTML ソースを調べて、どのセクションがコンテンツを形成し、どの広告がどのセクションを構成し、どのセクションがメタデータを形成するかを「理解」します (コンテンツでも広告でもない - 例えば - TOC、著者の略歴など)。
異なるサイトのページの HTML ソースを調べて、そのサイトが定義済みのカテゴリに属しているかどうかを「分類」します (カテゴリのリストは事前に提供されます)1。
... テキストとページでの同様の分類タスク。
ご覧のとおり、私の差し迫った要件は、異種のデータ ソースと大量のデータを分類することです。
私の限られた理解によると、ニューラル ネット アプローチを採用すると、SVM を使用するよりも多くのトレーニングとメンテナンスが必要になりますか?
SVM は私のような (バイナリ) 分類タスクに適していることを理解しており、libSVM のようなオープン ソース フレームワークはかなり成熟していますか?
その場合、コンピュータ サイエンスの卒業生は、これらのフレームワークを使用して上記の要件を解決できるように、現在どのような科目やトピックを学ぶ必要があるのでしょうか?
私はJavaから離れたいと思っています。それは可能です。それ以外の言語の好みはありません。私はできる限り多くの努力をして学びたいと思っています。
私の意図は、コードをゼロから書くことではありませんが、さまざまなフレームワークを使用できるようにすることから始めて (どれを決定するのに十分なのかわかりません)、問題が発生した場合に問題を修正できるようにする必要があります。
統計学と確率論の特定の部分を学ぶ上でのあなたからのアドバイスは、私の側からは予想外のものではないので、必要に応じて言ってください!
すべての提案とフィードバックに応じて、必要に応じてこの質問を変更します。
machine-learning - 初心者:将来の成功を予測するために問題を与えられた場所から始めるかどうか
ユーザーが商品の将来の価値(または需要)について予測できる本番Webベースの製品があります。履歴データには、約10万の例が含まれ、各例には約5つのパラメーターがあります。
予測と呼ばれるデータのクラスを考えてみましょう。
予測の結果を測定するペアの結果クラス:
成功のためのテストケースを定義できます。予測時に方向と値を検討するときに、将来の値のチェックポイントのいずれか2つが適切である場合。
ユーザーがフォームを送信した瞬間に予測クラスのすべてが認識され、predictionResultの情報は後で確認されます。理想的には、モデルまたはアルゴリズムは、アルゴリズムが新しい予測に適用されるという3年間の履歴から導き出すことができ、成功するかどうかについての確率を得ることができます(ブールY/Nフラグで満足しますこれが面白いかどうか)。
私は機械学習についてあまりよく知らないので、資料を読み進めようとしています。しかし、このような問題を解決するために必要なことを正確に調査して実践できるように、いくつかのガイダンスがあれば素晴らしいと思います。
ありがとうございました
maven-2 - ローカルリポジトリにコピーされない分類子を持つアーティファクト
Mavenバージョン2.0.7を使用しており、javadocおよびソースプラグインを使用して、デプロイ用の追加のアーティファクトを作成しています。生成されたアーティファクトはすべて正しくデプロイされていますが、他の誰かがビルドすると、指定した特定のアーティファクトのみを取得しているようです。ソースとjavadocのアーティファクトを他のプロジェクトに明示的な依存関係として追加する必要はありませんが、何かを変更しないと他の方法を見ることができません。
- これは、私が使用しているMavenバージョンで予想される動作ですか?
- もしあれば、これはどのバージョンを停止しますか?
- 問題を回避する別の方法はありますか?
c# - 多次元特徴を 2 つのセットに分類するニューラル ネットワークの例
(ほとんどの XY 例とは異なり) 2 つ以上の機能を受け入れ、データを 2 つのセットに分類する教師ありニューラル ネットワークのソース コード例を探しています。私が読んだことから、サポート ベクター マシン (SVM)が解決策になるのでしょうか?
私が見つけたすべての分類例は 2 次元です。ここにいくつかあります:
- 単層ペセプトロン
- CSharp の SVM (サポート ベクター マシン)
- SVM.NET - 本当に素晴らしいですが、入力はまだ 2 次元です。
通常は安定している多くの入力からまれなイベントを区別しようとしています。特徴はキーと値のペアであり、通常は値を小さな数値として離散化できます。最初のカテゴリで使用できるトレーニング データは膨大ですが、2 番目のカテゴリで使用できるトレーニング セットはわずかしかありません。
トレーニング セットの例
カテゴリーA
カテゴリーB
分類例
信頼度評価。「B の 85% の確信」は、まれなイベントのしきい値を区別するのに役立ちます。
ニューラル ネットワークは最適なソリューションですか?また、これが組み込まれた .NET ライブラリはありますか?
c# - 多変量時系列間隔からのまれなインシデントの検出
時系列のセンサー状態間隔が与えられた場合、監視されたトレーニング データから学習して一連の状態間隔に基づいてインシデントを検出する分類器を実装するにはどうすればよいですか? 問題を単純化するために、センサーの状態は または のいずれかに縮小されtrue
ますfalse
。
更新:同様の問題に対処する時間間隔のマイニング シーケンスに関するこのペーパー (PDF)を見つけました。多変量時系列における階層的時間パターンのマイニングに関する別の論文 (Google Docs)は、斬新なアプローチを採用していますが、階層データを扱っています。
トレーニング データの例
次のデータは、時間の経過に伴うグラフとして表されたインシデントのトレーニング例です。ここで、 はセンサーの状態間隔と状態間隔を/¯¯¯\
表します。true
\___/
false
インシデント検出 vs シーケンス ラベリング vs 分類
最初に問題を 2 カテゴリ シーケンス ラベル付け問題として一般化しましたが、カテゴリは実際には「通常の操作」とまれな「アラーム イベント」を表しているため、質問をインシデント検出と言い換えました。「通常運用」と「警報発生」のトレーニングデータを用意しています。
問題の複雑さを軽減するために、センサー イベントをブール値に離散化しましたが、必ずしもそうである必要はありません。
可能なアルゴリズム
隠れマルコフモデルは可能な解決策のようですが、状態間隔を使用することはできますか? シーケンス ラベラーがこの問題に対する最良のアプローチではない場合は、別の提案をいただければ幸いです。
ベイジアン確率論的アプローチ
センサーの活動は、時間帯によって大きく異なります (朝は忙しく、夜は静か)。私の最初のアプローチは、数日間にわたって正常なセンサー状態を測定し、時刻 (時間) ごとに状態確率を計算することでした。想定外の時間にセンサー状態が「想定外のしきい値」を超える合計確率は、インシデントを示します。しかし、これは、センサーにノイズが多い場合に誤った警報を発するように思われました。私はまだこれを実装していませんが、このアプローチにはメリットがあると思います。
特徴抽出
ベクトル状態は、特定の時間に発生し、特定の期間続く状態間隔の変化として表すことができます。
例えば。プロセス テーブルからのいくつかの状態間隔:
適切な分類器は、状態値の間隔と最近の状態変化を考慮して、状態変化の組み合わせがカテゴリのトレーニング データと厳密に一致するかどうかを判断します。
編集:複数のセンサーのアラームデータから特徴を抽出する方法と、それを以前のデータと比較する方法について、寝た後のいくつかのアイデア...
1 日の各時間について、各センサーについて次のデータを計算することから始めます。
- 平均状態間隔の長さ (
true
と のfalse
状態) - 状態変化間の平均時間
- 経時的な状態変化の数
各センサーは、次のようなデータを使用して、マトリックス内の他のすべてのセンサーと比較できます。
- センサー A が真の状態に変化した後、センサー B が真の状態に変化するまでにかかった平均時間。平均値が 60 秒の場合、1 秒の待機は 120 秒の待機よりも興味深いものになります。
- センサー A が 1 つの状態にある間にセンサー B が受けた状態変化の平均数
2 セットのトレーニング データが与えられた場合、分類器は、これらの特徴セットから分類の可能性が最も高いカテゴリを判断できる必要があります。
これは賢明なアプローチであり、これらの機能を比較するための優れたアルゴリズムは何でしょうか?
編集:状態変化 ( false->true
vs true-false
) の方向は重要であるため、すべての機能でそれを考慮する必要があります。
java - 任意の日付文字列を認識します
日付文字列を認識できる必要があります。月と日付を区別できないかどうかは関係ありません(例:12/12/10)。文字列をDateオブジェクトに変換するのではなく、日付として分類する必要があります。したがって、これは実際には解析の問題ではなく分類です。
次のようなテキストがあります。
「 blablablabla 12 Jan 09 bla bla bla 01/04/10 blablabla」
内の各日付文字列の開始境界と終了境界を認識できる必要があります。
これを実行できるJavaライブラリを誰かが知っているかどうか疑問に思いました。私のgoogle-fuは今のところ何も思い付いていません。
更新:日付を表すための可能な限り幅広い方法のセットを認識できる必要があります。もちろん、単純な解決策は、考えられるすべての形式に対してifステートメントを記述することかもしれませんが、訓練されたモデルを使用したパターン認識アプローチは、理想的には私が求めているものです。
python - PyMLのマルチクラス問題の再現率(感度)と適合率(PPV)の値を取得します
SVM分類にPyMLを使用しています。ただし、LOOを使用してマルチクラス分類子を評価すると、結果オブジェクトが感度とPPV値を報告しないことに気付きました。代わりにそれらは0.0です:
コードを見ましたが、ここで何が問題になっているのか理解できませんでした。誰かがこれの回避策を持っていますか?