5

入力テキストから n-gram 確率を自動的に生成し、1 つまたは複数の平滑化アルゴリズムも自動的に適用できる、ある種のパッケージまたはモジュール (できれば Python または Perl ですが、他のものも同様です) を見つけたいと思います。

つまり、NLTKNgramModelクラスのようなものを探しています。これは私の目的には使用できません。これは、平滑化関数にバグがあり、前に見たことのない単語の可能性を尋ねるとチョークするからです。

私は NLTK の開発フォーラムを読んだことがありますが、今のところ進展はないようです。

代替案はありますか?

4

3 に答える 3

6

自分の質問に答えたように見えるので、他の人が探している場合に備えて、ここで見つけたものについて言及します。

私が見つけた 2 つのツールキットがあります。

それらは非常によく似た機能を持っているようです。両方とも、さまざまな平滑化機能を備えています。

于 2011-07-14T18:30:09.657 に答える
0

NLTK は、スムージング、バックオフなどを備えた ngram モデル パッケージも提供します。

于 2015-04-06T15:16:01.653 に答える
-2

別の答えは、そのデータがアプリケーションに適している場合はGoogle が提供するデータセットをダウンロードするか、オンライン ビューアーを使用することだと思います。

于 2011-08-28T12:28:49.183 に答える