python - Pythonの文から英語以外の単語を削除する

Question

Google にクエリを送信して結果を返すコードを作成しました。これらの結果からスニペット (要約) を抽出して、さらに処理します。ただし、英語以外の単語がこれらのスニペットに含まれていることがありますが、これは望ましくありません。例えば：

/\u02b0w\u025bn w\u025bn unstressed \u02b0w\u0259n w\u0259n/

この文には「強調されていない」という言葉だけが必要です。どうやってやるの？ありがとう

score 4 · Accepted Answer

PyEnchant は簡単なオプションかもしれません。その速度についてはわかりませんが、次のようなことができます。

>>> import enchant
>>> d = enchant.Dict("en_US")
>>> d.check("Hello")
True
>>> d.check("Helo")
False
>>>

チュートリアルはこちらにあります。また、別のクエリなどで再度使用できる提案を返すオプションもあります。さらに、結果が latin-1 (is_utf8() が存在するかどうかを確認できます。is_latin-1() が存在するかどうかはわかりません。おそらく、テキストファイルのエンコーディングを検出するEncaなどを使用します。彼らの言語。)

score 1 · Accepted Answer

PyWordNet を使用できます。これは、WordNet の Python インターフェイスです。文を空白で分割し、各単語が辞書に載っているかどうかを確認してください。

score 1 · Accepted Answer

受け取った単語を、たとえば BSD システムの /usr/share/dict/words などの英単語の辞書と比較できます。

Google の検索結果はほとんどが文法的に正しいと思いますが、そうでない場合は、辞書と照合するためにステミングを調べる必要があるかもしれません。

python - Pythonの文から英語以外の単語を削除する

3 に答える 3

Related

Reference