-1

Python(2.7)で「単純な」問題を解決しようとしています。2 つのファイルがあるとします。

key.txt - 検索するキーがあります。content.txt - Web コンテンツ (html ファイル) を含む

どちらのファイルも utf-8 で保存されています。content.txt は混合ファイルです。つまり、英語以外の文字が含まれています (Web html ファイル)

key.txt ファイルのキーがコンテンツにあるかどうかを確認しようとしています。ファイルをバイナリ(バイト)として比較しようとしましたが機能しませんでした。また、デコードを試みても機能しませんでした。

また、混合された正規表現を検索する方法についても助けていただければ幸いです(英語と非英語の文字から構築された私のパターン)

4

1 に答える 1

0

先頭に次のステートメントを追加して、utf-8 エンコーディングを使用していることを Python インタープリターに知らせる必要があります。

# encoding: utf-8

次に、u'yourString'を使用して、文字列が Unicode 文字列であることを示すことができます。

サンプルコード:

text = u'someString'
keyString = u'someKey'
f = re.findall(keyString, text)

これらの文字列に対して他の操作を実行している間、文字列に対して encode('utf-8') メソッドを使用する必要がある場合があります

于 2013-09-12T20:19:03.373 に答える