nlp - 人工ニューラルネットワークは言語モデルを学習できますか? Paper 2000 の実装

Question

私はNLPの研究分野に不慣れです。ペーパーを実装したいCan Artificial Neural Networks Learn Language Models? この論文では、ニューラルネットワークが言語モデルを学習できるようにするための最初の一歩が踏み出されました。私はこの論文を理解しました。論文の最後のセクションにいくつかの混乱があるだけで、すべてが理解できます。

そのコードは見つかりませんでした。紙が古すぎる（2000年） 当時使われていたトレーニングデータ（Communicator Telephone Air Travel Information System）すら見つからなかった。

私はまた、この論文の両方の教授にこれについて電子メールを送りましたが、そのうちの 1 人の電子メール ID の有効期限が切れており、他の教授からの応答を待っています。

この状況で誰かが私を助けることができますか? あなたのガイドラインは、研究分野の新参者にとって価値があります。私はあなたに感謝します。

score 1 · Accepted Answer

NLP によると非常に古いドキュメントですが、私にとってこのドキュメントは、ブラックボックス技術を使用して言語モデルを学習する NLP の新しい時代の始まりのように見え、そのさらなる発展が WORD EMBEDDING に変わったようです - 私がその考えを覚えている限り2008 年に Google の Mikolov によって発表されました (Google はその技術 - word2vec と呼びます)。これは、単語が n 次元のベクトルとして提示される方法でモデルを学習するための再帰ニューラルネットワークの使用法です (Google の word2vec では n=128 です)。この表現は、類似した単語が他の単語よりも空間的に互いに近いため、非常に優れていることが判明しました。算術演算もそこで機能するため、たとえば、ドイツの首都 + パリ = フランス. ここには、単語の埋め込みによるテンソルフローでの素晴らしい記事、説明、および実装があります。 https://www.tensorflow.org/versions/r0.10/tutorials/word2vec/index.html したがって、すでにいくつかの実装があり、独自のモデルを学習するための準備が整ったコーパスデータもあります。

編集済み

リンクを修正しました - 間違っていました。C++ での Google コードの word2vec 実装もありますが、Google コードプロジェクトで非常に役立つのは、多くの追加データです。リンクは次のとおりです: https://code.google.com/archive/p/word2vec/ トレーニング済みのモデル (1.5GB) と、トレーニングデータへのリンクを見つけることができます: トレーニングデータの入手先

単語ベクトルの品質は、トレーニングデータの量に応じて大幅に向上します。研究目的で、オンラインで入手できるデータセットの使用を検討できます。

ウィキペディアの最初の 10 億文字 (Matt Mahoney のページの下部にある前処理の perl スクリプトを使用)

最新のウィキペディアダンプ上記と同じスクリプトを使用して、クリーンテキストを取得します。30 億語以上である必要があります。

WMT11 サイト: 複数の言語のテキストデータ (モデルをトレーニングする前に、重複する文を削除する必要があります)

「10 億語言語モデリングベンチマーク」のデータセットほぼ 10 億語、既に前処理されたテキスト。

UMBC ウェブベースコーパス約 30 億語、詳細はこちら。さらに処理が必要です (主にトークン化)。-さらに多くの言語のテキストデータを statmt.org と Polyglot プロジェクトで入手できます。

nlp - 人工ニューラル ネットワークは言語モデルを学習できますか? Paper 2000 の実装

1 に答える 1

Related

Reference

nlp - 人工ニューラルネットワークは言語モデルを学習できますか? Paper 2000 の実装