問題タブ [feature-engineering]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

379 問題

0 投票する

1 に答える

132 参照

python - Python - 分類の最小分散のビンサイズ

次のように、機能「年齢」を連続変数から、バイナリ分類の年齢範囲のカテゴリ変数に変更したいと思います。

ただし、データを最も効率的に分類できるように、最適な方法で分割したいと考えています。つまり、年齢範囲内のクラスの分散は最小化されますが、オーバーフィッティングは発生しません。

このようにデータを分割するときの分散を最小限に抑えることができるメソッドを持つパッケージはありますか、それとも自分で作成する必要がありますか?

2017-06-30T12:32:20.657

0 投票する

2 に答える

196 参照

machine-learning - ニューラルネットワーク機能の組み合わせ論

これらのパラメーターがネットワークの予測に影響を与えないように、十分な数の隠れ層、層ごとの隠れユニット、および反復を備えたニューラルネットワークがあるとします。

特徴 x1、x2、...、xn が与えられた場合、この特徴のサブセット (x1 から xn) が与えられた場合、潜在的な特徴の範囲が冗長であるかどうかを (証明するために) 可能ですか? つまり、これらの特徴 (x1 から xn) が与えられると、ニューラルネットワークは次のような他の特徴を識別することができます。

違いまたは追加 (x1-x49、または x17+xn)?
積と比率 (x1*x1 または x47/xn)
高次多項式 (または ∏(x1 から xn) のような数列の積)
元の特徴に基づく三角関数 (sin(x1*xn) + x17)
対数関数 (ln(x2*x4)/x6)

ニューラルネットワークを使用して、ネットワークが正確に予測するために高次関数または別の関数を追加する必要がある状況があるかどうか疑問に思っているのは、この一連の調査です。

一般に、適切な数の機能が与えられた場合、ネットワークは任意のグラフをモデル化できますか? また、そうでない場合、ニューラルネットワークが予測できない機能ドメインはどれですか?

さらに、このトピックを参照していると誰かが指摘できる研究はありますか?

ありがとう！

machine-learning neural-network deep-learning feature-engineering

2017-08-14T23:24:57.713

0 投票する

0 に答える

770 参照

apache-spark - PySpark での遅い機能エンジニアリング

文字列のインデックス作成、ワンホットエンコーディング、分位点の離散化などの手順を含む pyspark を使用してデータを準備しようとしています。私のデータフレームには、100 万行の非常に多くの列 (500 間隔列、250 カテゴリおよび 250 バイナリを含む 1,000 列) があります。

私の観察によると、一部のデータ変換は他のものよりもはるかに遅くなります。以下の要約にあるように、約 3 時間かかるステップもあれば、数分しかかからないステップもあります。

ステップ (実行時間):

すべての間隔変数の Log10 変換 (00:02:22)
データフレームのランダムデータ分割 (00:02:48)
分位点の離散化と区間のベクトルの組み立て ( 02:31:37 )
カテゴリカルの 1 つのホットエンコーディングとベクトルアセンブル ( 03:13:51 )
バイナリの文字列インデックス作成とベクトルアセンブル ( 03:17:34 )

最悪のパフォーマンスのステップは、文字列のインデックス付け、1 つのホットエンコーディング、分位点の離散化、またはベクトルアセンブラーのようです。

これらのステップのパフォーマンスを大幅に向上させるために、スパーク構成またはコードで何を確認または調整する必要があるか教えてください。

上記の機能エンジニアリングステップでは、Pyspark.ml.feature の QuantileDiscretizer、VectorAssembler、OneHotEncoder、StringIndexer メソッドを使用しました。データが完全にクラスターメモリにアップロードされたことを確認します (persist(StorageLevel.MEMORY_ONLY))。

私のクラスターには 7 つのノード (それぞれ 4 つのコアと 16GB の RAM) が含まれています。Spark のバージョンは 2.2 です。ピスパークを使用。

Spark 構成が適用されました:

spark.serializer = org.apache.spark.serializer.KryoSerializer

spark.kryo.unsafe = true

spark.rdd.compress = false

マスター = 糸

デプロイモード = クラスター

spark.driver.cores=4

ドライバーメモリ = 4G

num-executor = 6

エグゼキュータメモリ = 10G

エグゼキュータコア = 4

spark.yarn.maxAppAttempts=1

spark.sql.cbo.enabled=true

spark.sql.constraintPropagation.enabled=false

apache-spark pyspark apache-spark-ml feature-engineering

2017-11-16T13:42:30.517

1 2 3 4 5 6 7 8 9 10

問題タブ [feature-engineering]

python - Python - 分類の最小分散のビン サイズ

machine-learning - ニューラル ネットワーク機能の組み合わせ論

apache-spark - PySpark での遅い機能エンジニアリング

Reference

python - Python - 分類の最小分散のビンサイズ

machine-learning - ニューラルネットワーク機能の組み合わせ論