特定の単語を識別して数えようとしています。識別子ごとにカウントを保存する必要があります。
たとえば、ドキュメントには次のような内容が含まれる場合があります。
risk risk risk free interest rate
asterisk risk risk
market risk risk [risk
*アスタリスクではなく「リスク」を数える必要があります。他のリスク関連の単語がある可能性があるため、上記の例に固執しないでください。私が見つけなければならないのは「リスク」です。リスクが < [ ( または . ! * > ] ) などで終わるか始まる場合は、それもカウントする必要があります。しかし、リスクワードがアスタリスクのような単語の構成要素である場合、それを数えるべきではありません。
これが私がこれまでに持っているものです。ただし、リスクだけでなく、アスタリスクと [リスクのカウントも返します。正規表現を使用しようとしましたが、エラーが発生し続けます。さらに、私はPythonの初心者です。誰かが何か考えがあれば、私を助けてください!!^^ ありがとう。
from collections import defaultdict
word_dict=defaultdict(int)
for line in mylist:
words=line.lower().split() # converted all words to lower case
for word in words:
word_dict[word]+=1
for word in word_dict:
if 'risk' in word:
word, word_dict[word]