問題タブ [language-model]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
11883 参照

python - Keras LSTM/GRU 言語モデルの入力形状

Keras の単語レベルで言語モデルをトレーニングしようとしています。

私は X と Y を持っています。どちらも (90582L、517L) の形状です。

このモデルを当てはめてみると:

エラーが発生します:

入力形状がどうあるべきかについてのガイダンスが必要ですか? 私はあらゆる種類の組み合わせで試行錯誤を行ってきましたが、根本的なことを誤解しているようです.

Keras テキスト生成の例では、X 行列は 3 次元でした。3 次元がどうあるべきかはわかりません。

0 投票する
1 に答える
1180 参照

tensorflow - NCE またはサンプリングされたソフトマックスを使用して TensorFlow 言語モデルをトレーニングする

TensorFlow RNN チュートリアルを適応させて、NCE 損失またはサンプリングされたソフトマックスを使用して言語モデルをトレーニングしていますが、それでも問題を報告したいと考えています。しかし、私が得る困惑は非常に奇妙です: NCE の場合、数百万 (ひどい!) を取得しますが、サンプルされたソフトマックスの場合、1 エポック後に 700 の PPL を取得します (本当であるにはあまりにも良い?!)。私は何が間違っているのだろうか。

PTBModel への私の適応は次のとおりです。

このモデルへの呼び出しは次のようになります。

ここでは特別なことはしていません。損失関数の変更は非常に簡単です。では、なぜうまくいかないのでしょうか。

ありがとう、ヨリス

0 投票する
0 に答える
202 参照

tensorflow - 言語モデルの TensorFlow ファイル パイプラインの簡単な例は?

TensorFlow で RNN 言語モデルを構築しています。私の生の入力は、テキストのファイルで構成されています。私はそれらをトークン化することができるので、私が扱っているデータは語彙へのインデックスである整数のシーケンスです。

の例に従って、 feed_dictメソッドptb_word_lm.pyを介してトレーニング データを取得する言語モデルを構築するコードを記述しました。ただし、メモリに収まるデータ セットに制限されたくないので、代わりにファイル パイプラインを使用してデータを読み込みたいと考えています。これを行う方法の例が見つかりません。

私が見たファイル パイプラインの例はすべて、長さ 1 のテンソルであるラベルに関連付けられた長さnのテンソルを持っています。 0 から 9 の範囲のラベル。) ただし、RNN トレーニング データは、n 個の連続するトークンのベクトルと、同じくn 個の連続するトークン (ベクトルの 1 つ前にシフト) で構成されるラベルで構成されます。次に例を示します。

ファイル パイプラインを記述して、この形状のデータを TensorFlow グラフにフィードする方法を示すコード スニペットを教えてもらえますか?

0 投票する
1 に答える
441 参照

nlp - A Neural Probabilistic Language Model Bengio、2003 のコードの記述。モデルを理解できない

A Neural Probabilistic Language Model by yoshua Bengio, 2003 のコードを書こうとしていますが、入力層と射影行列の間、および射影行列と隠れ層の間の関係を理解できません。単語ベクトル表現の学習がどの程度正確に行われているのかわかりません。

0 投票する
2 に答える
1136 参照

tensorflow - Tensorflow の動的 LSTM モデル

Tensorflow を使用して、文の長さが異なる LSTM モデルを設計しようとしています。PTB データセット ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/models/rnn/ptb/ptb_word_lm.py ) に関するチュートリアルを見つけました。このモデルは、さまざまな長さのインスタンスをどのようにキャプチャしますか? この例では、可変サイズのシーケンスを処理するためのパディングやその他の手法については何も説明していません。

パディングを使用する場合、アンローリング ディメンションはどれくらいにする必要がありますか?

0 投票する
1 に答える
1768 参照

speech-recognition - SRILM を使用した ARPA モデル トレーニングでのエラー

このチュートリアルに従いました。

このコードを実行した後:

それは私にこのエラーを与えます:

「修正された KneserNey 割引の 1 つは、注文 2 の割引推定器で負のエラーです。」

どうすればこの問題を解決できますか?

0 投票する
1 に答える
193 参照

tensorflow - バッチ中に TensorFlow が状態をリセット = 文レベルの言語モデル

文の境界を越えない反復言語モデル (LSTM など) を構築する最善の方法は何ですか? または、より一般的に言えば、バッチをモデルに提示し、各行に複数の文が含まれている場合、各文を確認した後で状態をリセットするにはどうすればよいでしょうか? モデルに指定できる特別なトークンはありますか?

ありがとう!

0 投票する
1 に答える
493 参照

python - Tensorflow/TFLearnでLSTMを介して2つのシーケンスを同時に学習する方法は?

Tensorflow プラットフォームで LSTM ベースの seq2seq モデルを学習しています。与えられた単純な seq2seq の例でモデルをうまくトレーニングできます。

ただし、特定のシーケンスから一度に 2 つのシーケンスを学習する必要がある場合 (たとえば、現在のシーケンスから前のシーケンスと次のシーケンスを同時に学習する場合)、どのようにそれを行うことができますか。つまり、シーケンスとバックプロパゲートの両方から結合誤差を計算します。両方のシーケンスに同じエラー?

私が使用している LSTM コードのスニペットは次のとおりです (主に ptb の例から取得: https://github.com/tensorflow/tensorflow/blob/master/tensorflow/models/rnn/ptb/ptb_word_lm.py#L132 ):

0 投票する
1 に答える
479 参照

tensorflow - このドキュメントの softmax_w と softmax_b は何ですか?

私は TensorFlow を初めて使用し、言語モデルをトレーニングする必要がありますが、以下に示すようにドキュメントを読んでいるときにいくつかの問題に遭遇します。

なぜこの行が必要なのかわかりませんが、

出力が計算され、target_words が分かれば、損失を直接計算できることがわかったので。疑似コードが追加のレイヤーを追加しているようです。また、前述していない softmax_w と softmax_b とは何ですか。そんな素朴な疑問を投げかけたことで、何か重要なことを見落としているのではないかと思いました。

正しい方向に向けてください。どんな提案も大歓迎です。どうもありがとう。