問題タブ [language-model]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Keras LSTM/GRU 言語モデルの入力形状
Keras の単語レベルで言語モデルをトレーニングしようとしています。
私は X と Y を持っています。どちらも (90582L、517L) の形状です。
このモデルを当てはめてみると:
エラーが発生します:
入力形状がどうあるべきかについてのガイダンスが必要ですか? 私はあらゆる種類の組み合わせで試行錯誤を行ってきましたが、根本的なことを誤解しているようです.
Keras テキスト生成の例では、X 行列は 3 次元でした。3 次元がどうあるべきかはわかりません。
tensorflow - NCE またはサンプリングされたソフトマックスを使用して TensorFlow 言語モデルをトレーニングする
TensorFlow RNN チュートリアルを適応させて、NCE 損失またはサンプリングされたソフトマックスを使用して言語モデルをトレーニングしていますが、それでも問題を報告したいと考えています。しかし、私が得る困惑は非常に奇妙です: NCE の場合、数百万 (ひどい!) を取得しますが、サンプルされたソフトマックスの場合、1 エポック後に 700 の PPL を取得します (本当であるにはあまりにも良い?!)。私は何が間違っているのだろうか。
PTBModel への私の適応は次のとおりです。
このモデルへの呼び出しは次のようになります。
ここでは特別なことはしていません。損失関数の変更は非常に簡単です。では、なぜうまくいかないのでしょうか。
ありがとう、ヨリス
tensorflow - 言語モデルの TensorFlow ファイル パイプラインの簡単な例は?
TensorFlow で RNN 言語モデルを構築しています。私の生の入力は、テキストのファイルで構成されています。私はそれらをトークン化することができるので、私が扱っているデータは語彙へのインデックスである整数のシーケンスです。
の例に従って、 feed_dictメソッドptb_word_lm.py
を介してトレーニング データを取得する言語モデルを構築するコードを記述しました。ただし、メモリに収まるデータ セットに制限されたくないので、代わりにファイル パイプラインを使用してデータを読み込みたいと考えています。これを行う方法の例が見つかりません。
私が見たファイル パイプラインの例はすべて、長さ 1 のテンソルであるラベルに関連付けられた長さnのテンソルを持っています。 0 から 9 の範囲のラベル。) ただし、RNN トレーニング データは、n 個の連続するトークンのベクトルと、同じくn 個の連続するトークン (ベクトルの 1 つ前にシフト) で構成されるラベルで構成されます。次に例を示します。
ファイル パイプラインを記述して、この形状のデータを TensorFlow グラフにフィードする方法を示すコード スニペットを教えてもらえますか?
nlp - A Neural Probabilistic Language Model Bengio、2003 のコードの記述。モデルを理解できない
A Neural Probabilistic Language Model by yoshua Bengio, 2003 のコードを書こうとしていますが、入力層と射影行列の間、および射影行列と隠れ層の間の関係を理解できません。単語ベクトル表現の学習がどの程度正確に行われているのかわかりません。
tensorflow - Tensorflow の動的 LSTM モデル
Tensorflow を使用して、文の長さが異なる LSTM モデルを設計しようとしています。PTB データセット ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/models/rnn/ptb/ptb_word_lm.py ) に関するチュートリアルを見つけました。このモデルは、さまざまな長さのインスタンスをどのようにキャプチャしますか? この例では、可変サイズのシーケンスを処理するためのパディングやその他の手法については何も説明していません。
パディングを使用する場合、アンローリング ディメンションはどれくらいにする必要がありますか?
speech-recognition - SRILM を使用した ARPA モデル トレーニングでのエラー
このチュートリアルに従いました。
このコードを実行した後:
それは私にこのエラーを与えます:
「修正された KneserNey 割引の 1 つは、注文 2 の割引推定器で負のエラーです。」
どうすればこの問題を解決できますか?
tensorflow - バッチ中に TensorFlow が状態をリセット = 文レベルの言語モデル
文の境界を越えない反復言語モデル (LSTM など) を構築する最善の方法は何ですか? または、より一般的に言えば、バッチをモデルに提示し、各行に複数の文が含まれている場合、各文を確認した後で状態をリセットするにはどうすればよいでしょうか? モデルに指定できる特別なトークンはありますか?
ありがとう!
python - Tensorflow/TFLearnでLSTMを介して2つのシーケンスを同時に学習する方法は?
Tensorflow プラットフォームで LSTM ベースの seq2seq モデルを学習しています。与えられた単純な seq2seq の例でモデルをうまくトレーニングできます。
ただし、特定のシーケンスから一度に 2 つのシーケンスを学習する必要がある場合 (たとえば、現在のシーケンスから前のシーケンスと次のシーケンスを同時に学習する場合)、どのようにそれを行うことができますか。つまり、シーケンスとバックプロパゲートの両方から結合誤差を計算します。両方のシーケンスに同じエラー?
私が使用している LSTM コードのスニペットは次のとおりです (主に ptb の例から取得: https://github.com/tensorflow/tensorflow/blob/master/tensorflow/models/rnn/ptb/ptb_word_lm.py#L132 ):
tensorflow - このドキュメントの softmax_w と softmax_b は何ですか?
私は TensorFlow を初めて使用し、言語モデルをトレーニングする必要がありますが、以下に示すようにドキュメントを読んでいるときにいくつかの問題に遭遇します。
なぜこの行が必要なのかわかりませんが、
出力が計算され、target_words が分かれば、損失を直接計算できることがわかったので。疑似コードが追加のレイヤーを追加しているようです。また、前述していない softmax_w と softmax_b とは何ですか。そんな素朴な疑問を投げかけたことで、何か重要なことを見落としているのではないかと思いました。
正しい方向に向けてください。どんな提案も大歓迎です。どうもありがとう。