29

ANN 入力を正規化、標準化などする必要があることは理解しています。さまざまな ANN の特性とモデルはさておき、{0,1} の範囲内または範囲 {-1, 1}ニューラルネットワークへの入力として与えられる前に?Google でこれを検索していますが、情報が見つかりません (間違った用語を使用している可能性があります)。

  1. それは理にかなっていますか?
  2. それが、ニューラル ネットワーク用にテキストを前処理する方法ではないでしょうか。
  3. 代替手段はありますか?

2013 年 11 月の更新

私は長い間、ピートの答えを正しいものとして受け入れてきました。しかし、主にシンボリック知識と ANN について行ってきた最近の調査のために、私は深刻な疑問を抱いています。

Dario Floreano と Claudio Mattiussiは、著書の中で、分散エンコーディングを使用することで、このような処理が実際に可能であると説明してい。

実際、グーグルの学者で検索してみると、シンボリック知識をエンコードするために脳が分散エンコードを使用すると仮定されている神経科学の記事や論文が大量に存在します。

Teuvo Kohonenは、論文「Self Organizing Maps」で次のように説明しています。

ニューラル適応法則をシンボル セット (ベクトル変数のセットと見なされる) に適用すると、シンボル間の「論理距離」を表示する地形図が作成されると考える人もいるかもしれません。しかし、連続データと比較してシンボルの性質が異なるという問題が生じる。後者の場合、類似性は、連続エンコーディング間のメトリックの違いとして、常に自然な方法で表示されます。これは、メトリックが定義されていない単語などの個別の象徴的なアイテムには当てはまりません。記号の意味がその符号化から切り離されるのは、記号の性質そのものです。

しかし、Kohonen は SOM のシンボリック情報をうまく処理できました。

さらに、Alfred Ultsch 博士は論文「The Integration of Neural Networks with Symbolic Knowledge Processing」で、ANN での記号知識 (テキストなど) の処理方法を正確に扱っています。Ultsch は、シンボリック知識を処理するための次の方法論を提供します: ニューラル近似推論、ニューラル統合、イントロスペクション、および統合知識取得。とはいえ、グーグルの学者やその他の場所にあるものについては、ほとんど情報が見つかりません。

彼の答えのピートは、セマンティクスについて正しいです。通常、ANN のセマンティクスは切り離されています。ただし、以下の参考文献は、研究者が RBM をどのように使用して、異なる単語入力のセマンティクスの類似性を認識するように訓練したかについての洞察を提供します。したがって、セマンティクスを持つことは不可能ではありませんが、セマンティクスが必要な場合は、階層化されたアプローチまたは二次 ANN が必要になります。 .

Subsymbolic Neural Networks による自然言語処理、Risto Miikkulainen、1997 Word Observations に関する制限付きボルツマン マシンのトレーニング、GEDahl、Ryan.P.Adams、H.Rarochelle、2012

2021 年 1 月の更新

NLP とディープ ラーニングの分野では、過去数年間、そして私がその質問をして以来、研究が復活しています。現在、私が達成しようとしていたことをさまざまな方法で解決する機械学習モデルがあります。

ディープ ラーニングまたはニューラル ネットワークでテキストを前処理する方法について疑問に思っているこの質問にたどり着いた人のために、いくつかの役立つトピックを次に示します。いずれもアカデミックではありませんが、理解しやすく、同様のタスクの解決を開始するのに役立つトピックです。

私がその質問をしたとき、RNN、CNN、および VSM が使用され始めようとしていました。現在、ほとんどのディープ ラーニング フレームワークは広範な NLP サポートをサポートしています。上記がお役に立てば幸いです。

4

5 に答える 5

19

先に進み、ここでの答えとして私たちの議論を要約します.

あなたの目標は、ニューラル ネットワークにテキストを組み込むことができるようにすることです。従来の ANN は、テキストの分析にはあまり適していないことがわかりました。これがなぜそうであるかについての根本的な説明は、ANN が一般に値の連続的な範囲である入力で動作し、入力に対する 2 つの値の近さは、それらの意味においてある種の近さを意味するという考えに基づいています。単語にはこの近さの概念がないため、ANN への入力として意味のある単語の実際の数値エンコーディングはありません。

一方、機能する可能性のある解決策は、より伝統的なセマンティック分析を使用することです。これは、おそらくトピックのリストのセンチメント範囲を生成し、それらのトピックとそのセンチメント値を ANN の入力として使用できる可能性があります。

于 2013-02-21T16:57:11.277 に答える
10

あなたのコメントに応えて、いいえ、提案されたスキームはあまり意味がありません。人工ニューロンの出力は、その性質上、連続値または少なくともバイナリ値を表します。膨大な離散列挙 (UTF-8 文字など) と浮動小数点値で表される連続範囲との間をマッピングすることは意味がありません。ANN は、0.1243573 が 0.1243577 の非常に適切な近似であるように動作する必要があります。これらの数値が、たとえば、改行文字と文字 "a" に簡単にマッピングできる場合、これは互いに適切な近似ではありませ

率直に言って、ANN への入力としての「一般的な Unicode 文字列」の合理的な表現はありません。合理的な表現は、あなたがしていることの詳細に依存します。次の質問に対するあなたの回答によって異なります。

  • 文字のブロックではなく、入力文字列に単語が表示されることを期待していますか? 文字列に表示されることを期待している単語は何ですか?
  • 入力文字列の長さの分布は?
  • 入力文字列の予想されるエントロピーは?
  • 文字列がどのように見えるかについて、ドメイン固有の知識はありますか?

最も重要な

  • ANNでをしようとしていますか。これは無視できるものではありません。

ニューラルネットワークで実際にやりたいことを実行できる翻訳ないセットアップがある可能性があります。これらの質問に答えるまで (上記のコメントでそれらを回避します)、適切な答えを出すことは不可能です。

上記の質問に特定の回答をした場合に役立つ回答例を挙げます。たとえば、任意の長さの文字列を読み取っているが、スペースで区切られた単語の小さな語彙で構成されている場合、語彙の各単語に対して 1 つずつ、N 個の入力を行い、リカレント ニューラルを使用する翻訳スキームをお勧めします。対応する入力を 1 に設定し、他のすべての入力を 0 に設定することで、単語を一度に 1 つずつフィードします。

于 2013-02-20T10:07:00.553 に答える
7

テキスト (文字レベルでエンコードされたもの) を深い信念ネットワークにフィードして、それが言語のどのような特性を発見できるかを見るのは魅力的だと思います。

最近、ニューラル ネットワーク言語のモデリングに関して多くの作業が行われました (主に単語レベルですが、文字レベルでも)。

詳細については、これらのリンクを参照してください

http://www.stanford.edu/group/pdplab/pdphandbook/handbookch8.html http://code.google.com/p/word2vec/

単語ベクトルは、ウィキペディアの記事などの大規模なコーパスでのトレーニングによってエンコードされ、意味と構文の特徴を取得することができ、それらの間に「距離」を定義することができます。」

「最近、単語ベクトルが多くの言語規則性を捉えていることが示されました。たとえば、ベクトル操作 vector('king') - vector('man') + vector('woman') は vector('queen') に近いです。」

また、ウィキペディアでトレーニングされた後に英語の特徴を示す、ランダムな文字の生成に関する Ilya Sutskever によるこの素晴らしい研究論文も参照してください。素晴らしいもの!

http://www.cs.toronto.edu/~ilya/pubs/2011/LANG-RNN.pdf http://www.cs.toronto.edu/~ilya/rnn.html (オンライン テキスト生成テキスト デモ - 非常にいいね!)

于 2013-08-13T17:13:36.557 に答える
2

あなたが何をしようとしているのかは明確ではありませんが、人々が「自然言語」と呼ぶものに何らかの意味で関連しているように思われます. これについては多くの参考文献があります... 私は専門家ではありませんが、たとえば、O'Reilly によるいくつかの興味深い参考文献があることを知っています。

NN の観点から見ると、さまざまな NN モデルがたくさんあります。一種のバックプロパゲーション アルゴリズムを備えた多層パーセプトロンとして知られる最も一般的なものを参照していると思いますが、あなたのケースにより適した連想メモリのモデルがたくさんあります。これに関する非常に良い参考文献は、サイモン・ヘイキンの本です。

しかし、私がこのようなことをしようとすると、英語で文字、音節、および単語の頻度がどのように一緒に発生するかを理解しようとし始めます (?)。

私が助けたことを願っています。前にも言ったように、私はその分野の専門家ではありません。

于 2013-02-20T20:49:12.780 に答える