各 XML ドキュメントを csr_matrix 形式の機能マトリックスとして表しています。約 3000 の XML ドキュメントができたので、csr_matrices のリストを取得しました。これらの各マトリックスを平坦化して特徴ベクトルにし、これらの特徴ベクトルをすべて結合して、すべての XML ドキュメントを 1 つとして表す 1 つの csr_matrix を形成します。ここで、各行はドキュメントであり、各列は特徴です。
これを達成する1つの方法は、このコードを使用することです
X= csr_matrix([a.toarray().ravel().tolist() for a in ls])
ここで、ls は csr_matrices のリストですが、これは非常に非効率的です。3000 個のドキュメントがあると、単純にクラッシュします!
つまり、私の質問は、そのリスト 'ls' 内の各 csr_matrix を配列に変換せずに平坦化する方法と、平坦化された csr_matrix を別の csr_matrix に追加する方法です。
私はScipyでpythonを使用していることに注意してください
前もって感謝します!