特定の単語を識別して数えようとしています。識別子ごとにカウントを保存する必要があります。
例えば、
リスク リスク 無リスク金利
アスタリスク リスク リスク
市場リスク リスク [リスク
*ドキュメントに上記の単語が含まれており、アスタリスクではなく「リスク」をカウントする必要があります。[リスクを「リスク」としてカウントする必要もあります。これが私がこれまでに持っているものです。ただし、リスクだけでなく、アスタリスクと [リスクのカウントも返します。アスタリスクのカウントは必要ありませんが、[risk. 正規表現を使用しようとしましたが、エラーが発生し続けます。さらに、私はPythonの初心者です。誰かが何か考えがあれば、私を助けてください!!^^ ありがとう。
from collections import defaultdict
word_dict = defaultdict(int)
for line in mylist:
words = line.lower().split()
for word in words:
word_dict[word]+=1
for word in word_dict:
if 'risk' in word:
word, word_dict[word]