csv - Stanford Topic Modeling Toolbox の読み取り CSV エラー

Question

Stanford Topic Modeling Toolbox (TMT) を使用して Topic Modeling [0] を試しています。私はScalaの初心者です。ただし、CSV ファイルを読み取ってデータセットを準備できないようです。これが私のコードです

import scalanlp.io._;

val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);

println(source.data.size);

これにより、次のエラーがスローされます

Stanford TMT\example-0-test.scala:6: error: not found: value IDColumn
val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);

同様に、Tokenizer などの他のデータ前処理関数でもエラーが発生します。これがコードです

// Stanford TMT Example 0 - Basic data loading
// http://nlp.stanford.edu/software/tmt/0.4/


import scalanlp.io._;
val source = CSVFile("pubmed-oa-subset.csv") ;
println(source.data.size);

val tokenizer = {
  SimpleEnglishTokenizer()
 }

上記のコードで受け取ったエラーは次のとおりです。

error: not found: value SimpleEnglishTokenizer
  SimpleEnglishTokenizer()

TMT ホームページ [1] にあるのと同じ CSV ファイルを使用しています。また、スクリプトとデータは同じフォルダーにあります。

どうした？TMT ホームページからまったく同じテスト例を実行できません。

[0] http://nlp.stanford.edu/software/tmt/tmt-0.4/

[1] http://nlp.stanford.edu/software/tmt/tmt-0.4/examples/pubmed-oa-subset.csv

score 0 · Accepted Answer

デモを実行すると問題が発生しましたが、あなたのものとは異なります。私の問題は、CSV ファイル内の乱雑な文字が原因です ( http://nlp.stanford.edu/software/tmt/tmt-0.4/examples/pubmed -oa-subset.csv )。そして、エディタで CSV ファイルを UTF-8 として開き、読み取り不能な文字 (同じ記号として表されます) を置き換え、正常に実行されます。

あなたの問題は、クラスファイルの不足または CSV ファイル形式エラーのようです。よくわかりません。しかし、私の解決策を試すことができます。ホームページからの csv ファイルのダウンロードでは、乱雑な文字がよくある問題だと思います。または、実行可能な jar ファイルまたは csv ファイルの整合性。

上記の解決策がうまくいかない場合は、スタンフォード Java nlp メーリングリストで質問できます。 https://mailman.stanford.edu/mailman/listinfo/java-nlp-user

csv - Stanford Topic Modeling Toolbox の読み取り CSV エラー

1 に答える 1

Related

Reference