python - 複数回出現するドキュメント内の単語をカウントする Python Counter() 関数

翻译自：https://stackoverflow.com/questions/49941646 2018-04-20T12:27:05.947

6869 次

コレクションライブラリの Python Counter() 関数を使用した NLP (自然言語処理) プロジェクトに取り組んでいます。次の形式で結果を取得しています。

出力:

Counter({'due': 23, 'support': 20, 'ATM': 16, 'come': 12, 'case': 11, 'Sallu': 10, 'tough,': 9, 'team': 8, 'evident': , 'likely': 6, 'rupee': 4, 'depreciated': 2, 'senior': 1, 'neutral': 1, 'told': 1, 'tour\n\nRussia’s': 1, 'Vladimir': 1, 'indeed,': 1, 'welcome,”': 1, 'player': 1, 'added': 1, 'Games,': 1, 'Russia': 1, 'arrest': 1, 'system.\nBut': 1, 'rate': 1, 'Tuesday': 1, 'February,': 1, 'idea': 1, 'ban': 1, 'data': 1, 'consecutive': 1, 'interbank': 1, 'man,': 1, 'involved': 1, 'aggressive': 1, 'took': 1, 'sure': 1, 'market': 1, 'custody': 1, 'gang.\nWithholding': 1, 'cricketer': 1})

問題は、カウントが 1 より大きい単語を抽出したいということです。つまり、カウントが 1 または 2 より大きい単語のみを取得しようとしています。

アウトプットから頻度の低い単語を減らして語彙リストを作りたい。

PS : ほぼ 2000 の異なる単語でデータをテストするために、100 以上のドキュメントがあります。

PPS : 結果を得るためにあらゆることを試みましたが、結果を得ることができませんでした。ロジックのみが必要であり、実装できます。

python - 複数回出現するドキュメント内の単語をカウントする Python Counter() 関数

2 に答える 2

Related

Reference