このnumpy配列がどのように作成されるか知りたい場合は、これらの質問を見てください
- collection.Counter にアイテムを追加するにはどうすればよいですか? それらをASCにソートしますか?
- Porter Stemmer Algorithm 期待される出力が返されませんか? defに変更した場合
次のようなものがあると仮定しましょう(前処理後にこれからnumpy array
作成され、以下の配列もnumpyによってシャッフルされているため、結果はランダムです)
[[ 3 2 2 ..., 0 0 0]
[14 1 0 ..., 0 0 0]
[ 3 2 1 ..., 0 0 0]
...,
[ 1 1 1 ..., 0 0 0]
[ 2 2 2 ..., 0 0 0]
[ 1 1 0 ..., 0 0 0]]
データが大きいことは理解しています。600 通の電子メール (各電子メールは約 2000 語で構成されています) で構成されており、各電子メールにはインターネット上で一般的な 196 のスパム ワードに関する統計が含まれています。
コメントに記載されているStephen Marsland K-Means Neurel Network内で使用したいの"won't work if (0,0,...0) is in data"
ですが、このコメントが何を指しているのかわかりませんか? ...
(記号は数学と同じだと思いました。たとえば1...n
、1とnの間にものがあります)。それが何か他のことを意味する場合、無効な分割の問題にどのように取り組むべきですか? ありがとう!
よくわかりませんが、データセットの何かがこのエラーを引き起こしています
RuntimeWarning: invalid value encountered in divide data = transpose(transpose(data)/normalisers)