この SO メンバーと同様に、英語以外の単語を除外する R の単純なパッケージを探していました。たとえば、次のような単語のリストがあるとします。
Flexivel
eficaz
gut-wrenching
satisfatorio
apropiado
Benutzerfreundlich
interessante
genial
cool
marketing
clients
internet
私の最終目標は、コーパスから英語以外の単語を単純に除外して、リストが単純になるようにすることです。
gut-wrenching
cool
marketing
clients
internet
データを として読み込みましたが、data.frame
その後、 と を使用してワードクラウドを作成するために、コーパスに変換され、次に TermDocumentMatrix に変換されwordcloud
ますtm
。
現在、パッケージtextcat
を使用して言語でフィルタリングしています。ドキュメントは私の頭の少し上にありtextcat
ますが、リストでコマンドを実行できることを示しているようです。たとえば、上記のデータがdf
「words」という単一の列で呼び出された data.frame にある場合、次のコマンドを実行します。
library(textcat)
textcat(c(df$word))
ただし、これには、各行を見て言語を判断するのではなく、単語のリスト全体を 1 つのドキュメントとして読み取る効果があります。助けてください!