text2vec の Glove モデルに基づいて、文の埋め込みをクラスター化しようとしています。このようにグローブモデルを使用して埋め込みを生成しました(標準的な方法でイテレータ、語彙などを作成します)。
# create document term matrix
dtm = create_dtm(it, vectorizer)
# assign the word embeddings
common_terms = intersect(colnames(dtm), rownames(word_vectors) )
# normalise
dtm_averaged <- text2vec::normalize(dtm[, common_terms], "l1")
# compute average sentence embeddings
sentence_vectors = dtm_averaged %*% word_vectors[common_terms, ]
結果のオブジェクトは、私が理解しているように、マトリックスクラスと同等のdgeMatrixクラスです。dgeMatrix クラスは多くのダウンストリーム タスクで使用されていないため、マトリックスを変換したいと考えています。ただし、オブジェクトのサイズは 6 GB であり、さらに処理するためにマトリックスをデータ フレームまたはテキスト ファイルに変換する際に問題が発生します。
理想的には、このマトリックスを Spark で使用して、k-means クラスタリングなどのさらなる分析を行います。私の質問は、下流のタスクにマトリックスを使用するための最良の戦略は何でしょうか.
a) マトリックス クラスまたはデータ フレームに変換します b) マトリックスをファイルに書き込みますか? c) まったく違うもの
私は Google Cloud でモデルを実行しており、32 GB RAM と 28 CPU のマシンを使用しています。
ご協力いただきありがとうございます。