次のコード行があります。
bitext = [[sentence.strip().split()
for sentence in pair if len(sentence) < 100]
for pair in zip(open(c_data), open(e_data))[:opts.num_sents]]
c_data
は中国語の文章
e_data
のファイル、 は英語の文章のファイルです。
bitext
相互の翻訳である英語と中国語の文のペアを含むリストである必要があります。
両方のデータ ファイルが巨大である
ため、特定の長さ以下の文のみを考慮して、コードの複雑さを軽減したいと考えています。長さは文字単位で測定されます。
例として、
ここでは長さを として指定しました100
。:opts.num_sents
は、データ ファイルから考慮すべきセンテンスの数を示す変数です。
問題/バグ
たとえば、中国語の文章が 95 文字で、英語の文章が 105 文字の場合bitext
、中国語の文章のみで更新されます。
しかし、両方の文が指定された長さを下回っている場合にのみ、コードに文のペアを追加する必要があります。
どうすればいいですか?