2

モデル構築用のデータセットにRegexTokenizerStopWordsRemoverを使用しています。同時に、3 文字未満の単語を削除したいと考えています。また、. どうやってやるの?これが私のコードです: ` tokenizehttphttps

val trainDF = sqlContext.read.jdbc(url, table, prop)

 // Tokenize
 val tokenizer = new RegexTokenizer()
    .setGaps(false)
    .setPattern("\\p{L}+")
    .setInputCol("posttext")
    .setOutputCol("words")
 val tokenizedDF = tokenizer.transform(trainDF)

 val filterer = new StopWordsRemover()
  .setCaseSensitive(false)
  .setInputCol("words")
  .setOutputCol("tokens")

 val filteredDF = filterer.transform(tokenizedDF)`
4

1 に答える 1

1

RegexTokenizer で setMinTokenLength(3) が見つかりました

于 2015-12-22T00:11:02.637 に答える