テキストから関連する用語を抽出し、最も関連性の高い用語を選択したい。
How to config nltk data -> how, to, config ignored
config mysql to scan -> config NOT ingored
Python NLTK usage -> usage ingored
new song by the band usage -> usage NOT ingored
NLTK Thinks that -> thinks ignored
critical thinking -> thinking NOT ignored
私はこの大雑把な方法しか考えられません:
>>> text = nltk.word_tokenize(input)
>>> nltk.pos_tag(text)
名詞と動詞だけを保存します。でも、「考える」「考える」が動詞だとしても、「考える」だけは残したい。また、「組み合わせる」よりも「組み合わせる」。できればフレーズも抽出したいです。また、「free2play」、「@pro_blogger」などの用語。
より良いスキームを提案するか、私のスキームを実際に機能させる方法を提案してください。