2

R を使用して、UCI with Amazon レビューからデータセットを読み取りたい.

データセットの形式は ARFF (.arff) です。

次のスクリプトを使用しています。

require("foreign")
setwd("H:/DataSet/amazon")
reviews <- read.arff("amazon.arff")

そして、次のエラーが表示されます

read.arff("amazon.arff") のエラー: 属性の指定が無効です。

先程はお世話になりました。

4

3 に答える 3

4

UCI Machine Learning Repository の「Amazon Commerce レビュー セット データ セット」のことだと思います。Weka でさえ、このデータセットを開くことはできません。

"...「Arff データ ファイル」ファイルとして認識されません。...属性名が一意ではありません。"

ファイルを調べると、次のようなエントリがたくさんあります

@attribute '\'\'\'\'\'\'\'\'\'\'r\'\'\'\'\'\'\'\'\'\'\'' numeric

ファイルで何か問題が発生しました。R や 'Arff' 読み取りルーチンのせいではありません。説明ページに名前と電子メール アドレスが記載されているデータセットの作成者に問い合わせてください。

于 2012-03-31T11:28:09.573 に答える
2

Weka で .arff ファイルを開くための解決策を見つけました。

構造を arff として特定できません (理由: java.lang.illegalArgumentException: 属性名が一意ではありません! 原因: 'T' 'T' 'T' 'T' 'I' 'I' 'I' 'I' 'Th' 「Th」「Th」「クラス」)。

@attribute "'\'\'\'\'\'\'\'\'\'r\'\'\'\'\'\'\'\'\'\' のような属性ではありません\'' 数値".

arff ファイルをテキスト エディター (私は TextMate を使用) で開くと、犯人が見つかります。(テキストメイトでは < NUL > と表示されます)

  • @attribute g_b 数値 @attribute T 数値 @attribute eing 数値 @attribute T 数値 @attribute rne 数値 @attribute T 数値 @attribute T 数値

コントロール F を使用して 'I' 'T' および 'Th' の属性を検索できますが、ここでは検索を高速化するために、問題のサイトに近い 3 つの検索しやすい属性を示します。

「私」は「t_wo」を検索し、

「Th」は「ff_」を検索

「T」の場合は「x_」を検索します(この属性は上にあります)

どの番号が適用されるかを知る方法がないため、単純に削除することはできません。名前を T2-4、I2-4 Th2-4 に変更することをお勧めします。また、属性「class」の名前を「class1」に変更する必要があります

于 2015-04-29T16:13:30.503 に答える