sklearn bag-of-words ベクトライザーからのスパース行列があります。これは csr_matrix であり、その要素はドキュメント内の単語の頻度を表します。しかし、今必要なのは 0/1 行列です。ここで 1 は文書内に単語が存在することを表しているので、実際の頻度は気にしません。バックグラウンドの問題は無視してください。次のようになります。疎行列があります。
2 3 4 0 0 0
0 0 0 0 0 8
0 0 0 2 0 0
0 0 0 0 0 0
すべての非ゼロ要素を 1 にしたいのですが、
1 1 1 0 0 0
0 0 0 0 0 1
0 0 0 1 0 0
0 0 0 0 0 0
どうすればこれを達成できますか?todense() を使用すると仮定すると、疎行列が大きいため、ループは適切な選択ではありません。より良い方法はありますか?