1

私はNLPの研究分野に不慣れです。ペーパーを実装したいCan Artificial Neural Networks Learn Language Models? この論文では、ニューラルネットワークが言語モデルを学習できるようにするための最初の一歩が踏み出されました。私はこの論文を理解しました。論文の最後のセクションにいくつかの混乱があるだけで、すべてが理解できます。

そのコードは見つかりませんでした。紙が古すぎる(2000年) 当時使われていたトレーニングデータ(Communicator Telephone Air Travel Information System)すら見つからなかった

私はまた、この論文の両方の教授にこれについて電子メールを送りましたが、そのうちの 1 人の電子メール ID の有効期限が切れており、他の教授からの応答を待っています。

この状況で誰かが私を助けることができますか? あなたのガイドラインは、研究分野の新参者にとって価値があります。私はあなたに感謝します。

4

1 に答える 1

1

NLP によると非常に古いドキュメントですが、私にとってこのドキュメントは、ブラックボックス技術を使用して言語モデルを学習する NLP の新しい時代の始まりのように見え、そのさらなる発展が WORD EMBEDDING に変わったようです - 私がその考えを覚えている限り2008 年に Google の Mikolov によって発表されました (Google はその技術 - word2vec と呼びます)。これは、単語が n 次元のベクトルとして提示される方法でモデルを学習するための再帰ニューラル ネットワークの使用法です (Google の word2vec では n=128 です)。この表現は、類似した単語が他の単語よりも空間的に互いに近いため、非常に優れていることが判明しました。算術演算もそこで機能するため、たとえば、ドイツの首都 + パリ = フランス. ここには、単語の埋め込みによるテンソルフローでの素晴らしい記事、説明、および実装があります。 https://www.tensorflow.org/versions/r0.10/tutorials/word2vec/index.html したがって、すでにいくつかの実装があり、独自のモデルを学習するための準備が整ったコーパス データもあります。

編集済み

リンクを修正しました - 間違っていました。C++ での Google コードの word2vec 実装もありますが、Google コード プロジェクトで非常に役立つのは、多くの追加データです。リンクは次のとおりです: https://code.google.com/archive/p/word2vec/ トレーニング済みのモデル (1.5GB) と、トレーニング データへのリンクを見つけることができます: トレーニング データの入手先

単語ベクトルの品質は、トレーニング データの量に応じて大幅に向上します。研究目的で、オンラインで入手できるデータ セットの使用を検討できます。

  • ウィキペディアの最初の 10 億文字 (Matt Mahoney のページの下部にある前処理の perl スクリプトを使用)
  • 最新のウィキペディア ダンプ 上記と同じスクリプトを使用して、クリーン テキストを取得します。30 億語以上である必要があります。
  • WMT11 サイト: 複数の言語のテキスト データ (モデルをトレーニングする前に、重複する文を削除する必要があります)
  • 「10 億語言語モデリング ベンチマーク」のデータセット ほぼ 10 億語、既に前処理されたテキスト。
  • UMBC ウェブベース コーパス 約 30 億語、詳細はこちら。さらに処理が必要です (主にトークン化)。-さらに多くの言語のテキスト データを statmt.org と Polyglot プロジェクトで入手できます。
于 2016-09-30T06:15:19.497 に答える