ファイル1のファイルごとに1行含まれるヒンディー語を検索し、ファイル2の行でそれらを見つけようとしています。見つかった単語数で行番号を出力する必要があります。これはコードです:
import codecs
hypernyms = codecs.open("hindi_hypernym.txt", "r", "utf-8").readlines()
words = codecs.open("hypernyms_en2hi.txt", "r", "utf-8").readlines()
count_arr = []
for counter, line in enumerate(hypernyms):
count_arr.append(0)
for word in words:
if line.find(word) >=0:
count_arr[counter] +=1
for iterator, count in enumerate(count_arr):
if count>0:
print iterator, ' ', count
これはいくつかの単語を見つけていますが、他のいくつかを無視しています 入力ファイルは次のとおりです: ファイル-1:
पौधा
वनस्पति
ファイル-2:
वनस्पति, पेड़-पौधा
वस्तु-भाग, वस्तु-अंग, वस्तु_भाग, वस्तु_अंग
पादप_समूह, पेड़-पौधे, वनस्पति_समूह
पेड़-पौधा
これにより、次の出力が得られます。
0 1
3 1
明らかに、それは वनस्पति を無視し、 पौधा のみを検索しています。他の入力でも試しました。1 つの単語のみを検索します。これを修正する方法はありますか?