問題タブ [training-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
7 に答える
82418 参照

neural-network - ニューラル ネットワーク トレーニング用のデータセット

人工ニューラルネットワークのさまざまなトレーニング方法をテストおよび比較するための比較的単純なデータセットを探しています。入力と出力のリストの入力形式 (0-1 に正規化) に変換するためにあまり前処理を必要としないデータが必要です。リンクを歓迎します。

0 投票する
2 に答える
817 参照

artificial-intelligence - ニューラル ネットワークの応答はトレーニング データで保証されていますか?

ANN をトレーニングしようとしています (このライブラリを使用します: http://leenissen.dk/fann/ )。結果はやや不可解です。基本的に、トレーニングに使用したのと同じデータでトレーニング済みネットワークを実行すると、出力は次のようになります。トレーニングセットで指定されたものではなく、乱数です。

たとえば、トレーニング ファイルの最初のエントリは次のようになります。

最初の行は入力値で、2 行目は目的の出力ニューロンの値です。しかし、まったく同じデータを訓練されたネットワークにフィードすると、訓練の試行ごとに異なる結果が得られ、それらは 1 とはまったく異なります。たとえば、次のようになります。

そして、別の試みで:

トレーニング セットのサイズが不十分である可能性があることは認識していますが (これまでのところ、入力/出力のペアは約 100 しかありません)、少なくともトレーニング データが正しい出力値をトリガーするべきではありませんか? 同じコードは、FANN の Web サイトで説明されている「はじめに」の XOR 関数でも問題なく機能します (1 リンクの制限を既に使い果たしています)。

0 投票する
5 に答える
3859 参照

image-processing - 衛星画像の分析のための画像処理アプリケーションの作成

人工衛星の構造を特定するために、衛星画像の分析アプリケーションの作業を開始する必要があります。これにはCまたはJavaを使用したいと思います。

衛星については、Googleマップのデータを使用する予定です。

ここに3つの質問があります:

  1. グーグルマップ/地球以外のGISデータの最良の情報源は何ですか。
  2. サードパーティのAPIを使用する必要があることを考慮して、このようなアプリケーションを作成するのに最適な言語
  3. 人工構造物を識別するオープンな画像処理エンジンはありますか?

それはたくさんの質問ですが、ここの賢い人たちがここで私を助けてくれることを願っています。

0 投票する
5 に答える
900 参照

neural-network - ニューラルネットワークのトレーニングに使用する気象データの検索

ニューラルネットワークをトレーニングして予測を行うために使用できるダウンロード可能な気象データを探しています。どこで見つけることができますか?基本的に、温度、湿度、風速/風向など、ニューラルネットワークが簡単な予測を行うのに役立つ可能性のあるものすべてです。

0 投票する
2 に答える
376 参照

machine-learning - トレーニングデータを準備するための一般的なフレームワーク?

計算言語学の学生として、私は機械学習実験を頻繁に行っています。そこでは、生または注釈付きのテキストコーパスや構文ツリーバンクなど、あらゆる種類のさまざまなリソースからトレーニングデータを準備する必要があります。すべての新しいタスクとすべての新しい実験について、必要な機能と値を抽出し、データをある形式から別の形式に変換するプログラム(通常はPython、場合によってはJava)を作成します。これにより、通常、非常に多くの非常に大きなファイルと、いくつかの機械学習フレームワーク(Wekaのarffファイルなど)の入力を取得するためにそれらを処理する非常に多くの小さなプログラムが生成されます。

それを処理し、大量のデータの重要な特性、例外、またはエラーを見逃さないように細心の注意を払ってプログラムするために、非常によく組織化する必要があります。設計パターンやリファクタリングパラダイムなどの優れたソフトウェア設計の多くの原則は、セキュリティ、保守性、持続可能性などはそれほど重要ではないため、これらのタスクにはあまり使用されません。プログラムがデータを正常に処理すると、データは不要になります。これはこれまでのところ、Pythonコードとプログラムで単純な手続き的な方法でクラスや関数を使用することさえまったく気にしないようになっています。次の実験では、独自の特性と異なる形式の異なるデータセットが必要になるため、いずれにせよ、それらの準備を最初からプログラムする必要があります。これまでの私の経験はそれが プロジェクトの時間の80〜90%をトレーニングデータの準備に費やすのは珍しいことではありません。何時間も何日も、あるデータ形式から別のデータ形式に移行する方法を考えるだけで過ぎ去ります。時々、これはかなりイライラすることがあります。

さて、あなたはおそらく私が意図的にさえ少し誇張していると推測しました、しかし私はあなたが私が言おうとしていることを理解していると確信しています。私の質問は、実際には、これです:

これらのタスクに取り組むための一般的なフレームワーク、アーキテクチャ、ベストプラクティスはありますか?最適な設計があれば、私が書いたコードのどれだけが再利用可能であると期待できますか?

0 投票する
3 に答える
426 参照

machine-learning - ANN をトレーニングするとき、検証データはどこに行きますか?

トレーニング セットの一部を検証データとして使用する必要性は単純ですが、トレーニングのどの段階でどのように統合する必要があるかについてはよくわかりません。

トレーニングの最後ですか (トレーニング データの適切な最小値に達した後) か? もしそうなら、検証データが大きなエラーをもたらす場合はどうすればよいですか?

トレーニング全体を通してですか (トレーニング データと検証データの両方のエラーが満足のいくものではない間、最小値を探し続けます)。

何を試しても、検証セットが特定のサイズに達すると、ネットワークはトレーニングと検証の両方を学習するのに問題があるようです (70% のトレーニングと 30% の検証が一般的な比率であることをどこかで読んだことを思い出します。はるかに小さいもの)、完全にトレーニングに使用する場合、同じデータを学習しても問題ありません。

0 投票する
17 に答える
3729 参照

training-data - 平凡な開発者がチームを傷つけていることを経営陣に示す方法

私は小さな会社で開発者チームを「管理」するという不安定な立場にいます。私が「管理する」と言うのは、仕事を割り当て、その業績についてフィードバックを提供するが、実際に個人を懲らしめる手段がないからです。

私のチームの何人かは、どうしたらいいのかわからず、自分で作業することができず、大量の手を握る必要があり、放置されると、通常はプロジェクトに大混乱をもたらし、通常は失敗に終わります。失敗が発生した場合、私はプロジェクトを救出し、フィニッシュ ラインを越えて (時には足を引きずって) プッシュする必要があります。

これらの開発者は、プログラミングの概念に関するスキルが不足しているだけでなく、一般的に、コードの問題に対する解決策を策定する能力が不足しています。問題の解決策を設計して実装することは言うまでもなく、ループを書くなどの単純なことは彼らにとって困難です。

私たちはペア プログラミングを試し、授業料の支払いを申し出たり、書籍を購入したり、勤務時間中にトレーニングに時間を割いたり、さらにはチームのトレーニングに丸一日かかったりしました。

もう一人の上級開発者と私は何をすべきかわかりませんが、私たちの生産性は、これらの個人に日々対処しなければならないために抑制されています. 経営陣は私たちに彼らに仕事を与えることを強いていますが、彼らの主な不満は、物事が十分に早く終わらないことです.

私たちの管理チームは、私と他の上級開発者以外の開発者と直接仕事をすることはありません。経営陣は非技術的であり、すべての開発者が平等に作成されていると信じており、これらのプロジェクトをより迅速に完了するには、明らかにより多くの人員が必要である.

「The Mythical Man Month」と「Code Complete」のセクションを含む文書を経営陣に送信して、開発サイクルを通じて平凡な人々を引きずり出さなければならないことが本当に妨げになっていることを統計で説明できるように、すでに準備しています。

他にどのようなリソースがありますか? 本、記事、一般的なアドバイスは何でも役に立ちます。

0 投票する
2 に答える
9502 参照

machine-learning - SVM分類-各クラスの入力セットの最小数

ウェブページからの広告である画像を検出するアプリを構築しようとしています。それらを検出すると、クライアント側での表示を許可しなくなります。

このStackoverflowの質問に答えた助けから、SVMが私の目標への最良のアプローチであると思いました。

そこで、SVMとSMOを自分でコーディングしました。UCIデータリポジトリから取得したデータセットには3280個のインスタンス(データセットへのリンク)があり、そのうちの約400個は広告画像を表すクラスからのものであり、残りは非広告画像を表すものです。

現在、最初の2800の入力セットを取得してSVMをトレーニングしています。しかし、正解率を調べた後、これらの2800の入力セットのほとんどが非広告画像クラスからのものであることがわかりました。そのため、そのクラスの精度は非常に高くなっています。

だから私はここで何ができますか?トレーニングするためにSVMにいくつの入力セットを与える必要がありますか?また、クラスごとにいくつの入力セットを提供しますか?

ありがとう。乾杯。(前の質問とは文脈が違うので、基本的に新しい質問をしました。ニューラルネットワーク入力データの最適化


返信いただきありがとうございます。広告クラスと非広告クラスのC値が正しく導出されているかどうかを確認したいと思います。これについてフィードバックをください。

ここに画像の説明を入力してください

または、ここでドキュメントバージョンを確認できます。

ここでy1eqaulからy2へのグラフを見ることができます ここに画像の説明を入力してください

ここでy1はy2と等しくありません ここに画像の説明を入力してください

0 投票する
2 に答える
2192 参照

neural-network - 顔検出ニューラルネットワークトレーニングデータ(データベース、顔の数など)

ニューラルネットワークを使用して顔検出プログラムを作成し、信頼できるトレーニングセットを探しています。ウェブの周りにはさまざまなセットがあることは知っていますが、それらがどれほど優れているかはわかりません。どこから始めればいいですか?

0 投票する
1 に答える
2088 参照

image-processing - AdaBoost アルゴリズムのトレーニング セット

AdaBoost アルゴリズムの Haar 特徴の負および正のトレーニング データ セットをどのように見つけますか? 画像内で特定したい特定のタイプのブロブがあり、配列全体にそれらのいくつかがあるとします。それをどのようにトレーニングしますか? できるだけ非技術的な説明をいただければ幸いです。私はこれが初めてです。ありがとう。