0

今日、text2vec パッケージに出会いました。これは、特定の問題にまさに必要なものです。ただし、text2vec で作成された dtm を何らかの出力ファイルにエクスポートする方法がわかりませんでした。私の最終的な目標は、text2vec を使用して R で機能を生成し、結果のマトリックスを H2O にインポートしてさらにモデリングすることです。H2O は、CSV または SVMLight 形式のいずれかを読み取ることができます。

最初に作成した987753 x 8806 sparse Matrix of class "dgCMatrix", with 3625049 entriesのは で、かなり大きいです。大きすぎるため、as.matrix() を使用して CSV に書き出すことはできません。SVMLight 形式で簡単に書き出せるのではないかと思ったのですが、動作するライブラリが見つかりませんでした。この出力を H2O に読み込むことができるファイルに取得するための他のオプションはありますか?

4

1 に答える 1

1

それを行うことができるいくつかのパッケージがあります。https://github.com/Laurae2/sparsityを見てください- 最も有望な私見:

library(text2vec)
library(sparsity)
data("movie_review")
N = 5000
tokens = movie_review$review[1:N] %>% tolower %>% word_tokenizer
it = itoken(tokens, progressbar = T)
dtm = create_dtm(it, hash_vectorizer())
write.svmlight(dtm, labelVector = movie_review$sentiment, file = "dtm.svmlight")
于 2016-11-27T05:11:14.443 に答える