0

tm のようなパッケージを使用して、英語以外の文字 (主に日本語/タイ語/中国語) を R で分割および識別できるようにしたいと考えています。次に、テキスト分類のためにランダム フォレスト/ロジスティック回帰を実行します。tm または別の R パッケージでこれを行う可能性はありますか?

4

1 に答える 1

2

編集:

R は英語以外の文字をテキストとして読むのに苦労しているようです。Web から中国語のアルファベットをスクレイピングしてみましたが、文字エンコーディングが一貫していれば役立つ結果が得られました。

### Require package used to parse HTML Contents of a web page
require(XML)
### Open an internet connection
url <- url('http://www.chinese-tools.com/characters/alphabet.html')
### Read in Content line by line
page <- readLines(url, encoding = "UTF-8")
### Parse HTML Code
page <- htmlParse(page)
### Create a list of tables
page <- readHTMLTable(page)
### The alphabet is contained in the third table of the page
alphabet <- as.data.frame(page[3])

これで、米国アルファベット文字のリストができました。別の列は、これらの文字が R にどのように読み取られたかに対応しています。元のオブジェクトで、私のテキストを送信したいのと同じ方法で読み取られた場合、Regular を使用することは可能でしょうか?これらのエンコードされた文字を一度に 1 つずつ検索する式は?

于 2013-04-23T16:53:25.673 に答える