背景: URL データを文字列配列に集約しています。この形の。[xyz.com、abc.com、efg.com]
1)次の行の URL カウントに基づいてフィルタリングします
vectored_file(size('agg_url_host')>3)
2)次のステップで頻繁に発生しないURLを除外します
CountVectorizer(inputCol="agg_url_host",outputCol="vectors",minDF=10000)
問題は、ステップ 1 でサイズ関数を渡すのに十分な行がいくつかありますが、頻度の低い URL を削除した後ではありません。したがって、モデリングに 3 を超えるカウントの行のみが必要な場合でも、ベクトル列の読み取り値 (68,[],[]) (68,[4,56],[1.0,1.0]) を持つ行になります。
私の質問は、countVectorizer の出力のようなベクター オブジェクトでサイズ関数を実行できますか? それとも、低カウントを削除する同様の機能ですか?
おそらく、元の「agg_url」列から頻度の低い列を削除して、新しい文字列配列列を作成する方法はありますか? 次に、その上で CountVectorizer を実行できます。
どんな助けでも感謝します。