問題タブ [language-model]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
646 参照

python - Keras+Theano を使用してシーケンスをシーケンス LSTM に適合させているときに MemoryError を発生させます

シーケンスからシーケンスへの言語モデルを実装しようとしていました。学習過程で、モデルは GloVe によって生成された 50d の単語ベクトルのシーケンスを取り込み、次の単語を意味する 1 対 V (V は語彙のサイズ) のベクトルを出力します。これは、対応する次の単語の分布と見なすことができます。テストプロセスの現在のタイムステップでの入力単語ベクトルに、112単語の語彙で試しました。

次に、次の 2 つのモデルを作成しました。

私がそれらを合わせようとしたとき

最初のモデルmodel1はクラッシュして MemoryError を発生させましたが、2 番目のモデルmodel2は正常に終了しました。X は の形をしており(number_of_sentences, max_words_in_one_sentence, 50)、Y は の形をしてい(number_of_sentences, max_words_in_one_sentence, 112)ます。この例では、number_of_sentences=10000, max_words_in_one_sentence=13.

新しい time-distributed-dense を LSTM レイヤーに追加したときに何が起こったのか、言語モデルを実装したいモデルはどれなのか疑問に思っています。

0 投票する
1 に答える
116 参照

nlp - 人工ニューラル ネットワークは言語モデルを学習できますか? Paper 2000 の実装

私はNLPの研究分野に不慣れです。ペーパーを実装したいCan Artificial Neural Networks Learn Language Models? この論文では、ニューラルネットワークが言語モデルを学習できるようにするための最初の一歩が踏み出されました。私はこの論文を理解しました。論文の最後のセクションにいくつかの混乱があるだけで、すべてが理解できます。

そのコードは見つかりませんでした。紙が古すぎる(2000年) 当時使われていたトレーニングデータ(Communicator Telephone Air Travel Information System)すら見つからなかった

私はまた、この論文の両方の教授にこれについて電子メールを送りましたが、そのうちの 1 人の電子メール ID の有効期限が切れており、他の教授からの応答を待っています。

この状況で誰かが私を助けることができますか? あなたのガイドラインは、研究分野の新参者にとって価値があります。私はあなたに感謝します。

0 投票する
2 に答える
729 参照

python - kenlm を使用した場合の否定的な結果

私は言語モデリングに不慣れ で、大きなテキスト ファイル (~7gb.) からkenlm (またはthis ) を使用して 3grams 言語モデルを作成します。言語モデルからバイナリ ファイルを作成し、Python で次のように呼び出します。

結果として負の数が得られます.スコアリングの文を変更すると、結果は負のままですが、変更されます.大きなテキストファイルの文の1つを正確に指定しますが、悪い負の数が得られます(テキストファイルにない文)否定的な結果が何を意味するのか、それを肯定的で通常の結果に変換して、いくつかの文の間で最も正しい文を選択するにはどうすればよいのかわかりません。

0 投票する
1 に答える
695 参照

python - nltk.KneserNeyProbDist は、ほとんどのトライグラムに 0.25 の確率分布を与えています

私はnltkを使用して言語モデリングに取り組んでいます。このエッセイをmypet.txtファイルのコーパスとして使用しています。ほとんどのtrigramで 0.25 の Kneser Ney 確率分布が得られます。どうしてか分かりません。そうですか?なぜそうしているのですか?これは私のword_ngram.pyファイルです:

これは、utf-8 文字を処理している私のpreprocessor.pyファイルです。

これは、utf-8 char を ascii char に置き換えるために使用したutf_to_ascii.jsonファイルです。

これは、いくつかのトライグラムの出力例です。

0 投票する
1 に答える
1376 参照

python - nltk python でトライグラムの conditional_frequency_distribution と conditional_probability_distribution を計算する方法

言語モデルの条件付き確率分布を計算したいのですが、生成できない条件付き頻度分布が必要なため、計算できません。これは私のコードです:

しかし、私はこのエラーが発生しています:

これは、utf-8 文字を処理している私の preprocessor.py ファイルです。

これは、utf-8 char を ascii char に置き換えるために使用した utf_to_ascii.json ファイルです。

NLTKのトリグラムの条件付き頻度分布を計算するにはどうすればよいですか?