0

スタンフォード トピック モデリング ツールボックス (TMT) http://nlp.stanford.edu/software/tmt/tmt-0.4/を使用しており、テキスト データ セットを準備したいと考えています。ストップワードのtxtファイルがあります。

でも、

TermStopListFilter() 

CSV データ セットからストップ ワードを除外し、次のようなスクリプト内のリストのみを受け入れます。

TermStopListFilter(List("positively","scrumptious"))

stopwords.txt ファイルをインポートしてストップワード リストとして使用するにはどうすればよいですか?

私が使用するコードの完全なスニペット:

val source = CSVFile("filtered.csv"); 

val text = {
  source ~>                              
  Column(1) ~>                           
  TokenizeWith(tokenizer) ~>             
  TermCounter() ~>                       
  TermMinimumDocumentCountFilter(100) ~>   
  TermStopListFilter(TXTFile("stopwords.txt"))  
  TermDynamicStopListFilter(10) ~>       
  DocumentMinimumLengthFilter(5)
}
4

1 に答える 1

1

ストップワードが「,」で区切られている場合は、これを試すことができます。

 . 
 .
      TermStopListFilter(Source("stopwords.txt").getLines().map(_.split(",")).toList) 
 .
 .

stopwords.txt のストップワードが他の文字で区切られている場合は、それに split(",")応じて変更し、次の行を削除する必要があります。TermStopListFilter(List("positively","scrumptious"))

于 2013-01-09T10:36:14.390 に答える