0

データは複数のレコードから構成されています。レコードは次のとおりです: [ビット ベクトル、数値ベクトル、いくつかの数値]。ビット ベクトルの長さはレコードごとに異なり、数値ベクトルについても同じことが言えます。レコードごとの数値の数は、すべてのレコードの定数です。

出力は 2 つの数値です。それらの値 (両方とも [0.0, 1.0] の範囲) は、検索アルゴリズムで評価/適合度関数の近似に使用されます。

だから、私の質問は次のとおりです:ニューラルネットワークのこれらのデータをどのように表現/正規化するのですか? 特に、ビットベクトルをコンパクトに表現する (トリッキーな) 方法はありますか? その長さは最大数千です。

4

1 に答える 1

2

いくつかの古典的な問題を除けば、複雑なデータを NN にフィードする唯一の正しい方法はありません。これは一種の芸術であり、実際、深層学習の最近の進歩は、複雑なデータを表現する方法の進歩に大きく貢献しています。

したがって、データの性質を知らなければ、具体的なアドバイスを与えることは困難です。なぜ可変長ベクトルを使用するのですか? それらはある種のシーケンスを表していますか? ビットベクトルには何がエンコードされていますか?

純粋な技術的な観点から言えば、可変長データとは、ゼロでパディングして一定長にするか (最も単純ですが、通常は適切ではありません)、畳み込みネットや再帰ネットなどの特別な NN アーキテクチャが必要であり、選択はデータセットの性質に依存することを意味します。ビット ベクトルがある種のバイナリ機能のセットを表す場合、ビットごとに 1 つのニューロンが必要です。または、オートエンコーダーを使用してコンパクトな実数値の埋め込みをトレーニングすることができます。

より有用な回答を得るには、問題の性質を説明し、質問を stats.stackexchange.comに投稿してください。

于 2015-02-21T14:34:17.723 に答える