'ticket_diary_comment'
という列を持つ というテーブルがあります'comment_text'
。この列にはテキスト データが入力されます。この列全体で出現するすべての単語の頻度を取得したいと思います。元:
Comment_Text
I am a good guy
I am a bad guy
I am not a guy
私が欲しいもの:
Word Frequency
I 3
good 1
bad 1
not 1
guy 3
出力からストップ ワードも削除したことに注意してください。特定の単語の頻度を計算することは難しくありませんが、列に表示されるすべての単語をカウントしてストップ ワードを削除するものを探しています。
この問題について何か助けていただければ幸いです。また、このクエリを大規模なデータセット (約 1 TB) に適用する必要があるため、パフォーマンスが懸念されます。