python - Python リストを反復処理する

翻译自：https://stackoverflow.com/questions/17660859 2013-07-15T18:06:01.657

5695 次

以下のような UTF-8 Unicode テキストファイルがあります (非英語)

ユニコードテキストファイル

そこで、python でエンコーディングを UTF-8 としてマークし、ファイルを python にインポートしました。

# -*- coding: utf-8 -*-

「。」で文をトークン化しました。文のリストを取得しました。

文リスト

ここで、別のユニコード単語リストと比較して、各文にそれらの単語が含まれているかどうかを調べる必要があります。

これは私のコードです。ただし、識別された最初の一致のみが表示されます。

for sentence in sentences:
    for word in sentence.split(" "):
        if word in pronouns:
            print sentence

編集：

最後に、ソーステキストファイルに無効な Unicode 文字があることに気付きました。ここで説明されていますnltkを使用したユニコードのトークン化

1 に答える 1