2

予測できない文字セットの文字列を、予想される列数で表にしています。適切なセパレーターを選択するのに苦労しています。

たとえば、サンプル テーブルは次のようになります。

ファイル名: foo.txt

セパレーター: "\u00AA"

ROW1、COL1: フー

ROW1、COL2: b、ar

ROW1、COL3: fo;obar

ROW1、COL4: bo\tt

そして。

RIで与えるだろう

read.table('foo.txt', sep="\u00AA")

そして得る

無効な 'sep' 値: 1 バイトでなければなりません

予測できない文字列との競合を避けるために、どのセパレーターを使用すればよいですか? Unicode は \u007F まで受け入れられますが、R はそれ以上のものをマルチバイトとして解釈します。なんで?

4

2 に答える 2

2

理解した。インスピレーションをありがとう。

重要なのは、comment.char="" と quote="" を設定することです。

例えば、

read.table('foo', sep="\t", quote="", comment.char="")

適切な data.frame を返します。

于 2013-06-20T21:39:12.610 に答える
0

入力の問題をデバッグする方法は、最初に実行table(count.fields( 'file.nam'))してからバージョンoddities <- which(count.fields('file.nam') %in% odd_counts)を確認するか、readLines('fil.nam')[oddities]sed を使用して問題のある行を確認することです。多くの場合、問題はデフォルトで「#」であるコメント文字であり、そのような場合の解決策は呼び出しで使用comment.char=""することです。read.delim(.)

于 2013-06-20T21:39:56.253 に答える