以下のような UTF-8 Unicode テキスト ファイルがあります (非英語)
そこで、python でエンコーディングを UTF-8 としてマークし、ファイルを python にインポートしました。
# -*- coding: utf-8 -*-
「。」で文をトークン化しました。文のリストを取得しました。
ここで、別のユニコード単語リストと比較して、各文にそれらの単語が含まれているかどうかを調べる必要があります。
これは私のコードです。ただし、識別された最初の一致のみが表示されます。
for sentence in sentences:
for word in sentence.split(" "):
if word in pronouns:
print sentence
編集:
最後に、ソース テキスト ファイルに無効な Unicode 文字があることに気付きました。ここで説明されていますnltkを使用したユニコードのトークン化