問題タブ [countvectorizer]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

316 問題

0 投票する

1 に答える

6776 参照

scala - Scala Spark - ベクトル列を Spark DataFrame の個別の列に分割する

Vector 値を持つ列がある Spark DataFrame があります。ベクトル値はすべて n 次元、つまり同じ長さです。また、列名のリストもありArray("f1", "f2", "f3", ..., "fn")、それぞれがベクトル内の 1 つの要素に対応しています。

これを達成するための最良の方法は何ですか？新しい DataFrame を作成しcreateDataFrame(Row(Features), featureNameList)てから古い DataFrame に結合する方法を考えましたが、createDataFrame を使用するには Spark コンテキストが必要です。既存のデータフレームのみを変換したい。私も知っていますが、大きい場合は.withColumn("fi", value)どうすればよいですか？n

私は Scala と Spark を初めて使用するので、良い例を見つけることができませんでした。これは一般的な作業でよいと思います。私の特定のケースは、を使用しCountVectorizer、ベクトルの結果だけではなく、読みやすくするために各列を個別に回復したかったことです。

2018-04-19T02:07:19.440

0 投票する

2 に答える

1961 参照

python - カウントベクトライザーからのベクトルの要素に対するPyspark-サイズ関数?

背景: URL データを文字列配列に集約しています。この形の。[xyz.com、abc.com、efg.com]

1）次の行の URL カウントに基づいてフィルタリングします

2）次のステップで頻繁に発生しないURLを除外します

問題は、ステップ 1 でサイズ関数を渡すのに十分な行がいくつかありますが、頻度の低い URL を削除した後ではありません。したがって、モデリングに 3 を超えるカウントの行のみが必要な場合でも、ベクトル列の読み取り値 (68,[],[]) (68,[4,56],[1.0,1.0]) を持つ行になります。

私の質問は、countVectorizer の出力のようなベクターオブジェクトでサイズ関数を実行できますか? それとも、低カウントを削除する同様の機能ですか?

おそらく、元の「agg_url」列から頻度の低い列を削除して、新しい文字列配列列を作成する方法はありますか? 次に、その上で CountVectorizer を実行できます。

どんな助けでも感謝します。

python apache-spark pyspark spark-dataframe countvectorizer

2018-04-20T16:45:43.757

0 投票する

1 に答える

5778 参照

scikit-learn - CountVectorizer の見出し語化でストップワードが削除されない

次のように、Skit-learn から CountVectorizer に Lematization を追加しようとしています。

これは出力です：

更新しました

これは表示され、見出し語化されたストップワードです。

u'lar'、u'ler'、u'der'

すべての単語をレンマティック化し、ストップワードを削除しません。それで、何か考えはありますか？

scikit-learn nltk stop-words lemmatization countvectorizer

2018-05-03T12:32:17.607

1 2 3 4 5 6 7 8 9 10

問題タブ [countvectorizer]

scala - Scala Spark - ベクトル列を Spark DataFrame の個別の列に分割する

python - カウントベクトライザーからのベクトルの要素に対するPyspark-サイズ関数?

scikit-learn - CountVectorizer の見出し語化でストップワードが削除されない

Reference