7

機械学習を使用してデータサンプルを高品質または低品質に分類しようとしている問題に取り組んでいます。

データサンプルはリレーショナルデータベースに保存されます。サンプルには、属性ID、名前、賛成票の数(品質の良し悪しを示すため)、コメントの数などが含まれます。また、データサンプルIDを指す外部キーを持つアイテムを含むテーブルもあります。アイテムには、重みと名前が含まれています。データサンプルを指すすべての項目が一緒になってデータサンプルを特徴付けます。これは通常、データサンプルの分類に役立ちます。問題は、1つの外部キーを指すアイテムの数がサンプルごとに異なることです。

ニューラルネットワークなどの機械学習入力に、特定のデータサンプルを指すアイテムをフィードしたいと思います。問題は、アイテムの数がわからないため、必要な入力ノードの数がわからないことです。

Q1)入力次元が動的な場合にニューラルネットワークを使用することは可能ですか?もしそうなら、どのように?

Q2)リストの長さが不明な場合に、タプルのリストをネットワークに供給するためのベストプラクティスはありますか?

Q3)リレーショナルデータベースに機械学習を適用するためのベストプラクティスはありますか?

4

5 に答える 5

2

ニューラルネットワークは、動的なサイズの入力で機能するようには設計されていません。機械学習の方法はほとんどありません。通常、一定の次元を想定しています。これに対処する最も簡単な方法は、可変サイズのインスタンスの要約統計量を計算することだと思います。たとえば、任意の数の入力がある場合は、これらの入力の平均(および分散など)を計算します。あなたの心がニューラルネットを使用するように設定されている場合、固定次元になります。

あなたがやりたいことに適したモデルのクラスがあります:ベイズノンパラメトリック。これは、無限のサイズに成長する能力を備えた特に洗練されたクラスのモデルですが、有限の量のデータを説明するために常に有限の数のパラメーターを使用します。モデルの更新は、データ量が増加する場合に明確に定義されます(モデル内のパラメーターの数は、それらに対応するために必要なだけ増加します)。

ただし、2つの大きな注意点があります。

  1. これらのモデルは難しいです。機械学習と統計に適切なバックグラウンドがない場合は、かなりのピックアップ時間がかかる可能性があります
  2. 無限モデルでの推論は手に負えません。これは通常、かなり計算量の多いMCMC法を使用して処理されます。変分ノンパラメトリックの最近の進歩がありますが、これはまだ新しい研究分野であり、広範囲のモデルに対するこのようなものの実装は確かに見つかりません。
于 2012-12-07T10:54:57.270 に答える
1

2つ目の回答を追加して申し訳ありませんが、最初の回答とは大幅に異なります。

うまくいく可能性のある1つの可能性は、次のことです。入力のサイズが3、4、または5であるとします。ニューラルネットワークに5つの入力ノード(入力の最大サイズ)を持たせます。次に、サイズ3のポイントが表示された場合、最初の3つのノードにその値を指定し、残りのノードにダミーの値を指定します。

具体的な例を説明しましょう。入力がR^3、R ^ 4、またはR ^ 5のポイントであり、それらがバイナリであると仮定します。これらは、各エントリで値0または1を取ることができます。ポイント(0,1,0,0,1)が表示された場合は、それらの値をネットワークの5つの入力ノードにフィードするだけです。ポイント(0,1,1)が表示された場合は、(0,1,1、-1、-1)をネットワークにフィードします。ここで、-1はダミー値です。これにより、「最後の2つのノードが特別である」という情報をネットワークに確実に提供できます。

線形分類器では、ダミー値は非常に危険です。ただし、ニューラルネットワークは線形ではないため、必要な情報を提供し、それを供給するのに十分なトレーニングデータがあれば、(原則として)任意の関数を学習できます。

于 2012-12-06T18:21:40.373 に答える
1

すべての質問に対する答えはわかりませんが、おそらくこれが役立つでしょう:

Q1)主成分分析(PCA)などの次元削減の方法を使用して、すべての入力オブジェクトを共通の次元にマップすることができます。これを行うには、長さ N のすべてのデータ ポイントを選択し、それらのみを使用して次元 N から次元 M へのマップを学習する必要があります。

例: サイズ 3、4、および 5 を持つことができる入力があるとします。サイズ 5 からサイズ 3 までのマップを学習する必要があります。これは、サイズ 5 のすべてのポイントを使用して学習できます。サイズ 4 からサイズ 3 まで、サイズ 4 のすべてのポイントを使用して学習できます。

ただし、これがうまく機能するとは思っていません。

Q2) Q1 が解決されれば問題ないはずです。

Q3) 私はこれについて推測していますが、データベースをグラフにマッピングし、グラフで学習するためにそこにある多数のアルゴリズムを使用することはできますか?

于 2012-12-06T15:04:58.273 に答える
1

私の知る限り、動的にサイズ設定された入力コレクションに直接作用するよく知られた分類方法はありません。次元削減は、高次元で固定されたデータを低次元に削減することで機能するため、実際には必要なものとは思えません。

二項分類の機械学習でこれを処理する 1 つの方法 (関心のある問題のようです) は、ヒストグラムを作成することです。たとえば、テキストに表示される単語のヒストグラムを作成することで、(さまざまな長さの) テキストを分類できます。いくつかの拡張機能、バイグラムのヒストグラム、n グラムが提示されていますが、それらは同じ考え方に基づいています。

別のタイプのアイデアは、構造化された予測です。その良い例は、文があり、各単語がどの品詞であるかを判断する必要がある場合です。このタイプのセットアップでは、各単語にはラベルがあり、ラベルは非常に重要です。このタイプの問題に対するよく理解されている方法は、潜在構造 SVMCRF、および最大マージン マルコフ ネットワークです。

于 2012-12-06T17:57:53.903 に答える