問題タブ [term-document-matrix]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - tm は非常に短い文字列を自動的に無視しますか?
これが私のコードです:例1:
結果は次のとおりです。
a の最初の文字列が無視されているようです。
例 2
結果は次のとおりです。
2 つの部分文字列 (abcd、cde) が保持されているのに対し、最も端にある文字列 (de) はまだ欠落していることがわかります。control = list(stemming=T) を使用しない場合も状況は同じです。それで、これがtmの一種の定義であるかどうか、私は興味がありますか? 3文字未満の場合、文字列は無視されますか? これは良い考えではないと思います。文字列は、略語のように短くても役に立つ可能性が非常に高いです。
もしそうなら、これを変更できるパラメーターまたは何かがありますか? どうもありがとう。