ツイート データから次のオカレンスを削除したいと考えています。
@が付いているもの (例: @nike)
:// で始まるもの
私のscalaスクリプト内にはストップワードがありますが、それらは出力と正確に一致する必要があります. 削除したい単語のすべての可能性を説明する @* や ://* などのストップワードを追加する方法はありますか?
val source = CSVFile("output.csv")
val tokenizer = {
SimpleEnglishTokenizer() ~> // tokenize on space and punctuation
WordsAndNumbersOnlyFilter() ~> // ignore non-words and non-numbers
CaseFolder() ~> // lowercase everything
MinimumLengthFilter(3) // take terms with >=3 characters
}
val text = {
source ~> // read from the source file
Column(1) ~> // select column containing text
TokenizeWith(tokenizer) ~> // tokenize with tokenizer above
TermCounter() ~> // collect counts (needed below)
TermMinimumDocumentCountFilter(30) ~> // filter terms in <4 docs
TermStopListFilter(List("a", "and", "I", "but", "what")) ~> // stopword list
TermDynamicStopListFilter(10) ~> // filter out 30 most common terms
DocumentMinimumLengthFilter(5) // take only docs with >=5 terms
}
Tokenizer は、これらの文字以外の文字を認識していないようです。ただし、問題なく除外されます。ご協力いただきありがとうございます!