r - `textcat` を使用してコーパスから英語以外の単語を除外する

Question

この SO メンバーと同様に、英語以外の単語を除外する R の単純なパッケージを探していました。たとえば、次のような単語のリストがあるとします。

Flexivel
eficaz
gut-wrenching
satisfatorio
apropiado
Benutzerfreundlich
interessante
genial
cool
marketing
clients
internet

私の最終目標は、コーパスから英語以外の単語を単純に除外して、リストが単純になるようにすることです。

gut-wrenching
cool
marketing
clients
internet

データをとして読み込みましたが、data.frameその後、とを使用してワードクラウドを作成するために、コーパスに変換され、次に TermDocumentMatrix に変換されwordcloudますtm。

現在、パッケージtextcatを使用して言語でフィルタリングしています。ドキュメントは私の頭の少し上にありtextcatますが、リストでコマンドを実行できることを示しているようです。たとえば、上記のデータがdf「words」という単一の列で呼び出された data.frame にある場合、次のコマンドを実行します。

library(textcat)
textcat(c(df$word))

ただし、これには、各行を見て言語を判断するのではなく、単語のリスト全体を 1 つのドキュメントとして読み取る効果があります。助けてください！

score 0 · Accepted Answer

辞書検索の場合は、次を使用できますaspell。

txt <- c("Flexivel", "eficaz", "gut-wrenching", "satisfatorio", "apropiado",
  "Benutzerfreundlich", "interessante", "genial", "cool", "marketing",
  "clients", "internet")

fn <- tempfile()
writeLines(txt, fn)
result <- aspell(fn)

results$Original一致しない単語を与えます。それらから、一致する単語を選択できます。

> result$Original
[1] "Flexivel"           "eficaz"             "satisfatorio"      
[4] "apropiado"          "interessante"       "Benutzerfreundlich"
> english <- txt[!(txt %in% result$Original)]
> english
[1] "gut-wrenching" "genial"        "cool"          "marketing"    
[5] "clients"       "internet"

ただし、Carl Witthoft が指摘しているように、これらが実際に英語の単語であるかどうかはわかりません。たとえば、'cool'、'marketing'、'internet' なども有効なオランダ語です。

r - `textcat` を使用してコーパスから英語以外の単語を除外する

1 に答える 1

Related

Reference