CSVファイルのデータから重複を削除したいのですが。最初の列は年で、2番目の列は文です。年の情報に関係なく、文の重複を削除したいと思います。
これらの重複を削除するためにvaltext= {}に挿入できるコマンドはありますか?
私のスクリプトは次のとおりです。
val source = CSVFile("science.csv");
val text = {
source ~>
Column(2) ~>
TokenizeWith(tokenizer) ~>
TermCounter() ~>
TermMinimumDocumentCountFilter(30) ~>
TermDynamicStopListFilter(10) ~>
DocumentMinimumLengthFilter(5)
}
ありがとうございました!