問題タブ [machine-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
parsing - NFL チーム名を正規化する
これは実際には機械学習の分類問題ですが、それを行うための完全に手っ取り早い方法があると思います。「サンフランシスコ」、「49ers」、「サンフランシスコ 49ers」、「SF フォーティーナイナーズ」などの NFL チームを表す文字列を、チームの正式な名前にマッピングしたいと考えています。(32 の NFL チームがあるため、実際には、特定の文字列を配置するために最も近い 32 のビンを見つけることを意味します。)
入力文字列は実際には完全に恣意的なものではありません (これらは次のような構造化データ ソースからのものです: http://www.repole.com/sun4cast/stats/nfl2008lines.csv ) 。上記の49ersの例。
また、マネーライン ベガス オッズと過去数年間の NFL ゲームの実際のゲーム結果の両方を含むデータ ソースを誰かが知っている場合は、これを行う必要がなくなることも付け加えておく必要があります。正規化が必要な理由は、これらの 2 つの異なるデータ セット (1 つはオッズ、もう 1 つは結果) を一致させるためです。
より優れた、より解析可能なデータソースのアイデアは大歓迎です!
追加: 部分文字列一致のアイデアは、このデータには十分かもしれません。ありがとう!レーベンシュタイン距離が最も近いチーム名を選択することで、もう少し堅牢にすることはできますか?
machine-learning - 遺伝的アルゴリズムを使用するクールなプロジェクト?
遺伝的アルゴリズムを使用する実用的なアプリケーションを探しています。考えられたいくつかのことは次のとおりです。
- ウェブサイトのインターフェースの最適化
- 物理シミュレーターによる車両の最適化
- 遺伝子プログラミング
- テスト ケースの自動生成
しかし、実際に私に飛び出した人はいません。では、遺伝的アルゴリズムのプロジェクトに費やす自由な時間 (数か月) があるとしたら、何に取り組むことを選択しますか?
math - 取得したユーザー名のサンプリングからサイトのユーザーベースのサイズを推測する方法
この情報を公開していないサイトのユーザーベースのサイズを見積もりたいとします。
人々は、さまざまな確率でさまざまなユーザー名を取得している可能性が高くなります。たとえば、ユーザー名「nick」がシステムに存在しない場合、ユーザーベースは非常に小さい可能性があります。ユーザー名「starbaby」を使用すると、はるかに大きなサイトになる可能性があります。それは単純なベイズ問題のようです。
サイトが異なれば、許可されるユーザー名のスペースも異なる可能性があるという問題があります。最大の問題は、スペースなどの一般的な文字の合法性だと思います。以前の配布を汚す可能性のあるもう1つの問題は、必要な名前が使用されたときにサイトが名前を提案するのか、それとももっとクリエイティブな名前を自分で考えさせるのかということです。
さまざまなサイズのシステムでユーザー名が発生する頻度のトレーニングセットをどのように構築できますか?固定幅バケットに分類するのではなく、ベイズを使用して数値推定を行う方法はありますか?
machine-learning - ニューラル ネットワークの構造
現在、ニューラル ネットワーク ライブラリを構築しています。簡単にするために、オブジェクト グラフとして作成しました。配列ベースのアプローチに移行することによるパフォーマンス上の利点を誰かが定量化できるかどうか疑問に思っています。私が今持っているものは、任意の複雑さに近いネットワークを構築するのに非常にうまく機能します。通常の (バックプロップ) ネットワークとリカレント ネットワークがサポートされています。訓練されたネットワークを配列などの「より単純な」形式に「コンパイル」することを検討しています。
実稼働環境にうまくデプロイされたニューラル ネットワークの構築に関する実際的なアドバイスや経験を誰かが持っているかどうかを確認したかっただけです。最終製品をオブジェクト グラフ ベースではなく配列ベースにするメリットはありますか?
PS メモリ フットプリントは速度ほど重要ではありません。
machine-learning - どのような機械学習ベンチマークがありますか?
機械学習ベンチマークのどのリポジトリを知っていますか?
algorithm - セット内のオブジェクトを近接度別にグループ化するにはどうすればよいですか?
何千ものアドレスを含むセットがあります。各住所の経度と緯度を取得できる場合、セットを近接度別にグループに分割するにはどうすればよいですか?
さらに、さまざまなルールに従って「クラスタリング」を再試行することもできます。
- N グループ
- グループあたり M 個のアドレス
- グループ内の任意のアドレス間の最大距離
java - 最高のオープンソースのJavaベイジアンスパムフィルターライブラリは何ですか?
Stackoverflowの他の回答では、Wekaが優れていることが示唆されていますが、他にもあります(Classifier4j、jBNC、Naiban)。
誰かがこれらを実際に経験したことがありますか?
machine-learning - 私が機械学習の問題だと思うものへの最善のアプローチ
問題を解決するための最善のアプローチについて、ここで専門家のガイダンスが必要です。私はいくつかの機械学習、ニューラル ネットワークなどを調査しました。私はweka、ある種のbaesianソリューション.. R..いくつかの異なることを調査しました。しかし、実際にどのように進めるかはわかりません。これが私の問題です。
私はイベントの膨大なコレクションを持っているか、持つ予定です。最終的には約 100,000 ほどになります。各イベントは、いくつか (30 ~ 50) の独立変数と、関心のある 1 つの従属変数で構成されます。従属変数の値を決定する上で、一部の独立変数は他の変数よりも重要です。そして、これらのイベントは時間に関連しています。10 年前の出来事よりも、今日の出来事の方が重要です。
ある種の学習エンジンにイベントを供給し、従属変数を予測できるようにしたいと考えています。次に、このイベント (およびそれ以前に発生したすべてのイベント) の従属変数の真の答えを知っているので、それを使用してその後の推測をトレーニングしたいと考えています。
プログラミングの方向性がわかったら、調査を行い、アイデアをコードに変換する方法を見つけます。しかし、私のバックグラウンドは並列プログラミングであり、このようなものではないので、これに関する提案とガイダンスがあれば幸いです。
ありがとう!
編集: ここで、私が解決しようとしている問題についてもう少し詳しく説明します。それは価格設定の問題です。ランダムな漫画本の価格を予測したいとしましょう。気になるのは価格だけです。しかし、考えつくことができる独立変数はたくさんあります。スーパーマンのコミックか、ハローキティのコミックか。これはどれくらい古いのですか?条件は何ですか?などなど。しばらくトレーニングした後、検討中の漫画に関する情報を提供できるようになり、漫画の妥当な期待値を与えてもらいたいと考えています。わかった。したがって、コミックは偽の例かもしれません。しかし、あなたは一般的な考えを得る。これまでのところ、答えから、サポートベクターマシンとナイーブベイズについていくつかの調査を行っています。これまでご協力いただきありがとうございました。
statistics - 経済的に重要な機械学習のアプリケーションにはどのようなものがありますか?
これが曖昧すぎる場合は、事前に謝罪してください。
これまでの私のリスト:
- 統計裁定取引
- 数理科学
- 製造工程管理
- 画像処理(セキュリティ、製造、医用画像)
- 計算生物学/創薬
- セイバーメトリクス
- 利回り管理
- オペレーションズ リサーチ/ロジスティクス (これにはビジネス インテリジェンスを含めます)
- マーケティング(嗜好予測、調査設計・分析、オンライン広告配信)
- 計算言語学 (Google、情報検索など)
- 教育テスト
- 疫学
- 犯罪学 (詐欺の検出、テロ対策、...)
- 消費者信用スコアリング
- スパム検出
- バグの発見、ウイルスの検出、コンピューターのセキュリティ
この質問に対処する記事、本、または雑誌はありますか? 私が見た唯一の本は Supercrunchers で、消費者の好みに焦点を当てています。
math - 情報抽出を開始するには?
情報抽出を開始して非常に優れたものになるためのトレーニングパスをお勧めします. 私は趣味のプロジェクトの 1 つを行うためにそれについて読み始めましたが、すぐに数学 (代数、統計、確率論) が得意である必要があることに気付きました。さまざまな数学のトピックに関する入門書をいくつか読みました (そしてとても楽しいです)。いくつかのガイダンスを探しています。助けてください。
更新:コメントの1つに答えるだけです。私はテキスト情報抽出にもっと興味があります。