2

Google にクエリを送信して結果を返すコードを作成しました。これらの結果からスニペット (要約) を抽出して、さらに処理します。ただし、英語以外の単語がこれらのスニペットに含まれていることがありますが、これは望ましくありません。例えば:

/\u02b0w\u025bn w\u025bn unstressed \u02b0w\u0259n w\u0259n/ 

この文には「強調されていない」という言葉だけが必要です。どうやってやるの?ありがとう

4

3 に答える 3

4

PyEnchant は簡単なオプションかもしれません。その速度についてはわかりませんが、次のようなことができます。

>>> import enchant
>>> d = enchant.Dict("en_US")
>>> d.check("Hello")
True
>>> d.check("Helo")
False
>>>

チュートリアルはこちらにあります。また、別のクエリなどで再度使用できる提案を返すオプションもあります。さらに、結果が latin-1 (is_utf8() が存在するかどうかを確認できます。is_latin-1() が存在するかどうかはわかりません。おそらく、テキスト ファイルのエンコーディングを検出するEncaなどを使用します。彼らの言語。)

于 2010-10-27T09:23:44.313 に答える
1

PyWordNet を使用できます。これは、WordNet の Python インターフェイスです。文を空白で分割し、各単語が辞書に載っているかどうかを確認してください。

于 2010-10-27T09:20:55.480 に答える
1

受け取った単語を、たとえば BSD システムの /usr/share/dict/words などの英単語の辞書と比較できます。

Google の検索結果はほとんどが文法的に正しいと思いますが、そうでない場合は、辞書と照合するためにステミングを調べる必要があるかもしれません。

于 2010-10-27T09:15:52.710 に答える