0

大量のツイートのコレクションで単語分析を試みています。

検索クエリに基づいてツイートを取得しています。その後、元のクエリに関連する、頻繁に表示されるキーワードをどうにかして見つけたいと考えています。

ただし、合理的に効果的な方法でこれを行う方法はよくわかりません。現在、ストップワードを削除してから、最も多く発生する単語を見つけていますが、これは私が望むよりも少し基本的です。

この種のことについて何か提案がありますか (またはトピックに関する読み物へのリンクさえありますか)?

どんな助けでも大歓迎です。

(関連する場合、私の実装はPythonで行われます)

4

1 に答える 1

3

ツイートの内容に関するセマンティックな推論については、必ずNLTK (Natural Language Toolkit Package) を試してください。テキストの非常に高度な分析が可能です。

于 2013-02-15T15:28:06.580 に答える