java - スペルミスを修正する自然言語モデルを構築する

Question

このような自然言語解析プログラムを構築する方法についての本は何ですか:

入力: 私はあなたに背を向けました
出力: I got to TELL you

入力: ビッグ RAT ボックス
出力: 大きな RED ボックス

in: hoo un thum zend three
out: 千三

どの単語のつづりが間違っているかを予測できる言語モデルが必要です。

そのようなツールを構築する方法についての最高の本は何ですか??

ps スペルチェックする無料の Web サービスはありますか? おそらくGoogleから？

score 7 · Accepted Answer

Peter Norvig は素晴らしいスペルチェッカーを書いています。多分それはあなたを助けることができます。

score 4 · Accepted Answer

少なくとも 3 つの選択肢があります

その言語を理解するプログラムを書くことができます (つまり、単語の意味)。これは今日の研究テーマです。そのようなプログラムを実行するのに十分な速さのコンピュータを購入できる最初の結果を期待してください (コンピュータが今日の 1000 倍高速になるのはおそらく 10 年後です)。
巨大なコーパス (テキストドキュメント) を使用して、隠れマルコフモデルをトレーニングします。
~~巨大なコーパスを使用して、 4 つ組~~の n-gram、つまり N 語のタプルが出現する頻度に関する統計を生成します。これに便利なリンクはありませんが、いくつかの単語は常に他の単語のコンテキストに表示されるという考えがあります。そのため、テキストを 4 グラムに解析してデータベースで検索しても見つからない場合は、現在のタプルに何か問題がある可能性があります。次のステップは、すべての一致する可能性があるもの (小さな soundex または現在のものと同様の距離を持つ他の 4 グラム) を見つけて、頻度が最も高いものを試すことです。

Google はかなりの数の言語についてこのデータを持っており、これについては Google ラボでさらに見つけることができます。

[編集] グーグル検索の結果、ようやくリンクを見つけました:このページでは、Google がインターネット全体で収集した英語の 1 ～ 5 グラムを 6 枚の DVD で購入できます。

「google spelling statistics n-grams」でグーグル検索すると、興味深いリンクもいくつか見つかります。

score 2 · Accepted Answer

スペル修正プログラムの実装に役立つ自然言語処理用の Java ライブラリが多数あります。しかし、あなたは本について尋ねました。Christopher D. Manning と Hinrich Schütze による統計的自然言語処理の基礎は良い選択肢のようです。最初の著者はスタンフォード大学の教授で、自然言語処理を行い、多くの人が使用する Java ライブラリと NLP リソースを開発するグループを率いています。

score 2 · Accepted Answer

2

soundex ( wiki ) は 1 つのオプションです

于 2010-02-10T12:57:39.317 に答える

score 1 · Accepted Answer

Dev Days Londonで、Michael Sparks はまさにそのためにコーディングされた Python スクリプトを紹介しました。意外と簡単でした！Google で検索できるかどうかを確認します。たぶん、ここの誰かがリンクを持っているでしょう。

java - スペルミスを修正する自然言語モデルを構築する

5 に答える 5

Related

Reference