3

背景: URL データを文字列配列に集約しています。この形の。[xyz.com、abc.com、efg.com]

1)次の行の URL カウントに基づいてフィルタリングします

vectored_file(size('agg_url_host')>3)

2)次のステップで頻繁に発生しないURLを除外します

CountVectorizer(inputCol="agg_url_host",outputCol="vectors",minDF=10000)

問題は、ステップ 1 でサイズ関数を渡すのに十分な行がいくつかありますが、頻度の低い URL を削除した後ではありません。したがって、モデリングに 3 を超えるカウントの行のみが必要な場合でも、ベクトル列の読み取り値 (68,[],[]) (68,[4,56],[1.0,1.0]) を持つ行になります。

私の質問は、countVectorizer の出力のようなベクター オブジェクトでサイズ関数を実行できますか? それとも、低カウントを削除する同様の機能ですか?

おそらく、元の「agg_url」列から頻度の低い列を削除して、新しい文字列配列列を作成する方法はありますか? 次に、その上で CountVectorizer を実行できます。

どんな助けでも感謝します。

4

2 に答える 2