私の質問は、文字列を複数のパターンと照合するというトピックに基づいています。ここで説明する 1 つの解決策はsapply(keywords, grepl, strings, ignore.case=TRUE)
、2 次元行列を生成するを使用することです。
ただし、このアプローチを 5,000 個以上のキーワードと 60,000 個以上の文字列に適用すると、重大な速度の問題が発生します..(12 時間後にプロセスをキャンセルしました)。
1 つのアイデアは、ハッシュ テーブルまたは R の環境を使用することです。ただし、数値インデックスを維持しながら、文字列を環境に「変換/変換」する方法がわかりません。
私はstrings[1]
...まで持っていますstrings[60000]
e <- new.env(hash=TRUE)
for (i in 1:length(strings)) {
assign(x=i, value=strings, envir=e)
}
x
キャラクターでなければならないので、このassign
ように使用することはできませんが、私の考えを理解していただければ幸いです..私のstring[...]
ベクトルのように同じ番号で環境をインデックス化できるようにしたいです
ご協力いただきありがとうございます!