scala - Scala で TXT ファイルをストップワードリストとして渡す

Question

スタンフォードトピックモデリングツールボックス (TMT) http://nlp.stanford.edu/software/tmt/tmt-0.4/を使用しており、テキストデータセットを準備したいと考えています。ストップワードのtxtファイルがあります。

でも、

TermStopListFilter()

CSV データセットからストップワードを除外し、次のようなスクリプト内のリストのみを受け入れます。

TermStopListFilter(List("positively","scrumptious"))

stopwords.txt ファイルをインポートしてストップワードリストとして使用するにはどうすればよいですか?

私が使用するコードの完全なスニペット:

val source = CSVFile("filtered.csv"); 

val text = {
  source ~>                              
  Column(1) ~>                           
  TokenizeWith(tokenizer) ~>             
  TermCounter() ~>                       
  TermMinimumDocumentCountFilter(100) ~>   
  TermStopListFilter(TXTFile("stopwords.txt"))  
  TermDynamicStopListFilter(10) ~>       
  DocumentMinimumLengthFilter(5)
}

score 1 · Accepted Answer

ストップワードが「,」で区切られている場合は、これを試すことができます。

 . 
 .
      TermStopListFilter(Source("stopwords.txt").getLines().map(_.split(",")).toList) 
 .
 .

stopwords.txt のストップワードが他の文字で区切られている場合は、それに split(",")応じて変更し、次の行を削除する必要があります。TermStopListFilter(List("positively","scrumptious"))

scala - Scala で TXT ファイルをストップワード リストとして渡す

1 に答える 1

Related

Reference

scala - Scala で TXT ファイルをストップワードリストとして渡す