r - read.table() の 1 バイト区切り引数

Question

予測できない文字セットの文字列を、予想される列数で表にしています。適切なセパレーターを選択するのに苦労しています。

たとえば、サンプルテーブルは次のようになります。

ファイル名: foo.txt

セパレーター: "\u00AA"

ROW1、COL1: フー

ROW1、COL2: b、ar

ROW1、COL3: fo;obar

ROW1、COL4: bo\tt

そして。

RIで与えるだろう

read.table('foo.txt', sep="\u00AA")

そして得る

無効な 'sep' 値: 1 バイトでなければなりません

予測できない文字列との競合を避けるために、どのセパレーターを使用すればよいですか? Unicode は \u007F まで受け入れられますが、R はそれ以上のものをマルチバイトとして解釈します。なんで？

score 2 · Accepted Answer

理解した。インスピレーションをありがとう。

重要なのは、comment.char="" と quote="" を設定することです。

例えば、

read.table('foo', sep="\t", quote="", comment.char="")

適切な data.frame を返します。

score 0 · Accepted Answer

入力の問題をデバッグする方法は、最初に実行table(count.fields( 'file.nam'))してからバージョンoddities <- which(count.fields('file.nam') %in% odd_counts)を確認するか、readLines('fil.nam')[oddities]sed を使用して問題のある行を確認することです。多くの場合、問題はデフォルトで「#」であるコメント文字であり、そのような場合の解決策は呼び出しで使用comment.char=""することです。read.delim(.)

r - read.table() の 1 バイト区切り引数

2 に答える 2

Related

Reference