問題タブ [text2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
143 参照

text2vec - ダウンストリーム タスク用に dgeMatrix を変換する

text2vec の Glove モデルに基づいて、文の埋め込みをクラスター化しようとしています。このようにグローブモデルを使用して埋め込みを生成しました(標準的な方法でイテレータ、語彙などを作成します)。

結果のオブジェクトは、私が理解しているように、マトリックスクラスと同等のdgeMatrixクラスです。dgeMatrix クラスは多くのダウンストリーム タスクで使用されていないため、マトリックスを変換したいと考えています。ただし、オブジェクトのサイズは 6 GB であり、さらに処理するためにマトリックスをデータ フレームまたはテキスト ファイルに変換する際に問題が発生します。

理想的には、このマトリックスを Spark で使用して、k-means クラスタリングなどのさらなる分析を行います。私の質問は、下流のタスクにマトリックスを使用するための最良の戦略は何でしょうか.

a) マトリックス クラスまたはデータ フレームに変換します b) マトリックスをファイルに書き込みますか? c) まったく違うもの

私は Google Cloud でモデルを実行しており、32 GB RAM と 28 CPU のマシンを使用しています。

ご協力いただきありがとうございます。