2

以下のような UTF-8 Unicode テキスト ファイルがあります (非英語)

ユニコードテキストファイル

そこで、python でエンコーディングを UTF-8 としてマークし、ファイルを python にインポートしました。

# -*- coding: utf-8 -*-

「。」で文をトークン化しました。のリストを取得しました。

文リスト

ここで、別のユニコード単語リストと比較して、各文にそれらの単語が含まれているかどうかを調べる必要があります。

これは私のコードです。ただし、識別された最初の一致のみが表示されます。

for sentence in sentences:
    for word in sentence.split(" "):
        if word in pronouns:
            print sentence

編集:

最後に、ソース テキスト ファイルに無効な Unicode 文字があることに気付きました。ここで説明されていますnltkを使用したユニコードのトークン化

4

1 に答える 1