0

テキストから関連する用語を抽出し、最も関連性の高い用語を選択したい。

How to config nltk data -> how, to, config ignored
config mysql to scan -> config NOT ingored
Python NLTK usage -> usage ingored
new song by the band usage -> usage NOT ingored
NLTK Thinks that -> thinks ignored
critical thinking -> thinking NOT ignored

私はこの大雑把な方法しか考えられません:

>>> text = nltk.word_tokenize(input)
>>> nltk.pos_tag(text)

名詞と動詞だけを保存します。でも、「考える」「考える」が動詞だとしても、「考える」だけは残したい。また、「組み合わせる」よりも「組み合わせる」。できればフレーズも抽出したいです。また、「free2play」、「@pro_blogger」などの用語。


より良いスキームを提案するか、私のスキームを実際に機能させる方法を提案してください。

4

1 に答える 1

0

必要なのは、投稿のタグ付けを改善することだけです。これは NLTK のよく知られた問題であり、コアの pos tagger は本番環境での使用には効率的ではありません。他の何かを試してみたいと思うかもしれません。ここで pos タグ付けの結果を比較してください - http://nlp.stanford.edu:8080/parser/。これは、私が今まで見つけた中で最も正確な POS タガーです (私が間違っていることがすぐに証明されることはわかっています)。このタガーでデータを解析すると、まさに必要なものが自動的に認識されます。

適切なタグ付けに集中することをお勧めします。

Check POS Tagging Example : Tagging critical/JJ think/NN

出典 : 最近は NLTK pos tagger にも苦労しています。:)

于 2013-04-10T12:00:50.843 に答える