python - カウントベクトライザーからのベクトルの要素に対するPyspark-サイズ関数?

翻译自：https://stackoverflow.com/questions/49946283 2018-04-20T16:45:43.757

1961 次

背景: URL データを文字列配列に集約しています。この形の。[xyz.com、abc.com、efg.com]

1）次の行の URL カウントに基づいてフィルタリングします

vectored_file(size('agg_url_host')>3)

2）次のステップで頻繁に発生しないURLを除外します

CountVectorizer(inputCol="agg_url_host",outputCol="vectors",minDF=10000)

問題は、ステップ 1 でサイズ関数を渡すのに十分な行がいくつかありますが、頻度の低い URL を削除した後ではありません。したがって、モデリングに 3 を超えるカウントの行のみが必要な場合でも、ベクトル列の読み取り値 (68,[],[]) (68,[4,56],[1.0,1.0]) を持つ行になります。

私の質問は、countVectorizer の出力のようなベクターオブジェクトでサイズ関数を実行できますか? それとも、低カウントを削除する同様の機能ですか?

おそらく、元の「agg_url」列から頻度の低い列を削除して、新しい文字列配列列を作成する方法はありますか? 次に、その上で CountVectorizer を実行できます。

どんな助けでも感謝します。

python - カウントベクトライザーからのベクトルの要素に対するPyspark-サイズ関数?

2 に答える 2

Related

Reference