問題タブ [countvectorizer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Scala Spark - ベクトル列を Spark DataFrame の個別の列に分割する
Vector 値を持つ列がある Spark DataFrame があります。ベクトル値はすべて n 次元、つまり同じ長さです。また、列名のリストもありArray("f1", "f2", "f3", ..., "fn")
、それぞれがベクトル内の 1 つの要素に対応しています。
これを達成するための最良の方法は何ですか?新しい DataFrame を作成しcreateDataFrame(Row(Features), featureNameList)
てから古い DataFrame に結合する方法を考えましたが、createDataFrame を使用するには Spark コンテキストが必要です。既存のデータ フレームのみを変換したい。私も知っていますが、大きい場合は.withColumn("fi", value)
どうすればよいですか?n
私は Scala と Spark を初めて使用するので、良い例を見つけることができませんでした。これは一般的な作業でよいと思います。私の特定のケースは、 を使用しCountVectorizer
、ベクトルの結果だけではなく、読みやすくするために各列を個別に回復したかったことです。
python - カウントベクトライザーからのベクトルの要素に対するPyspark-サイズ関数?
背景: URL データを文字列配列に集約しています。この形の。[xyz.com、abc.com、efg.com]
1)次の行の URL カウントに基づいてフィルタリングします
2)次のステップで頻繁に発生しないURLを除外します
問題は、ステップ 1 でサイズ関数を渡すのに十分な行がいくつかありますが、頻度の低い URL を削除した後ではありません。したがって、モデリングに 3 を超えるカウントの行のみが必要な場合でも、ベクトル列の読み取り値 (68,[],[]) (68,[4,56],[1.0,1.0]) を持つ行になります。
私の質問は、countVectorizer の出力のようなベクター オブジェクトでサイズ関数を実行できますか? それとも、低カウントを削除する同様の機能ですか?
おそらく、元の「agg_url」列から頻度の低い列を削除して、新しい文字列配列列を作成する方法はありますか? 次に、その上で CountVectorizer を実行できます。
どんな助けでも感謝します。
scikit-learn - CountVectorizer の見出し語化でストップワードが削除されない
次のように、Skit-learn から CountVectorizer に Lematization を追加しようとしています。
これは出力です:
更新しました
これは表示され、見出し語化されたストップワードです。
u'lar'、u'ler'、u'der'
すべての単語をレンマティック化し、ストップワードを削除しません。それで、何か考えはありますか?