apache-spark - Spark DataFrame 変換 - 3 文字未満の単語を削除する

Question

モデル構築用のデータセットにRegexTokenizerとStopWordsRemoverを使用しています。同時に、3 文字未満の単語を削除したいと考えています。また、. どうやってやるの？これが私のコードです： ` tokenizehttphttps

val trainDF = sqlContext.read.jdbc(url, table, prop)

 // Tokenize
 val tokenizer = new RegexTokenizer()
    .setGaps(false)
    .setPattern("\\p{L}+")
    .setInputCol("posttext")
    .setOutputCol("words")
 val tokenizedDF = tokenizer.transform(trainDF)

 val filterer = new StopWordsRemover()
  .setCaseSensitive(false)
  .setInputCol("words")
  .setOutputCol("tokens")

 val filteredDF = filterer.transform(tokenizedDF)`

score 1 · Accepted Answer

1

RegexTokenizer で setMinTokenLength(3) が見つかりました

于 2015-12-22T00:11:02.637 に答える

apache-spark - Spark DataFrame 変換 - 3 文字未満の単語を削除する

1 に答える 1

Related

Reference