問題タブ [countvectorizer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
6776 参照

scala - Scala Spark - ベクトル列を Spark DataFrame の個別の列に分割する

Vector 値を持つ列がある Spark DataFrame があります。ベクトル値はすべて n 次元、つまり同じ長さです。また、列名のリストもありArray("f1", "f2", "f3", ..., "fn")、それぞれがベクトル内の 1 つの要素に対応しています。

これを達成するための最良の方法は何ですか?新しい DataFrame を作成しcreateDataFrame(Row(Features), featureNameList)てから古い DataFrame に結合する方法を考えましたが、createDataFrame を使用するには Spark コンテキストが必要です。既存のデータ フレームのみを変換したい。私も知っていますが、大きい場合は.withColumn("fi", value)どうすればよいですか?n

私は Scala と Spark を初めて使用するので、良い例を見つけることができませんでした。これは一般的な作業でよいと思います。私の特定のケースは、 を使用しCountVectorizer、ベクトルの結果だけではなく、読みやすくするために各列を個別に回復したかったことです。

0 投票する
2 に答える
1961 参照

python - カウントベクトライザーからのベクトルの要素に対するPyspark-サイズ関数?

背景: URL データを文字列配列に集約しています。この形の。[xyz.com、abc.com、efg.com]

1)次の行の URL カウントに基づいてフィルタリングします

2)次のステップで頻繁に発生しないURLを除外します

問題は、ステップ 1 でサイズ関数を渡すのに十分な行がいくつかありますが、頻度の低い URL を削除した後ではありません。したがって、モデリングに 3 を超えるカウントの行のみが必要な場合でも、ベクトル列の読み取り値 (68,[],[]) (68,[4,56],[1.0,1.0]) を持つ行になります。

私の質問は、countVectorizer の出力のようなベクター オブジェクトでサイズ関数を実行できますか? それとも、低カウントを削除する同様の機能ですか?

おそらく、元の「agg_url」列から頻度の低い列を削除して、新しい文字列配列列を作成する方法はありますか? 次に、その上で CountVectorizer を実行できます。

どんな助けでも感謝します。

0 投票する
1 に答える
5778 参照

scikit-learn - CountVectorizer の見出し語化でストップワードが削除されない

次のように、Skit-learn から CountVectorizer に Lematization を追加しようとしています。

これは出力です:

更新しました

これは表示され、見出し語化されたストップワードです。

u'lar'、u'ler'、u'der'

すべての単語をレンマティック化し、ストップワードを削除しません。それで、何か考えはありますか?