スタンフォード トピック モデリング ツールボックス (TMT) http://nlp.stanford.edu/software/tmt/tmt-0.4/を使用しており、テキスト データ セットを準備したいと考えています。ストップワードのtxtファイルがあります。
でも、
TermStopListFilter()
CSV データ セットからストップ ワードを除外し、次のようなスクリプト内のリストのみを受け入れます。
TermStopListFilter(List("positively","scrumptious"))
stopwords.txt ファイルをインポートしてストップワード リストとして使用するにはどうすればよいですか?
私が使用するコードの完全なスニペット:
val source = CSVFile("filtered.csv");
val text = {
source ~>
Column(1) ~>
TokenizeWith(tokenizer) ~>
TermCounter() ~>
TermMinimumDocumentCountFilter(100) ~>
TermStopListFilter(TXTFile("stopwords.txt"))
TermDynamicStopListFilter(10) ~>
DocumentMinimumLengthFilter(5)
}