ANN 入力を正規化、標準化などする必要があることは理解しています。さまざまな ANN の特性とモデルはさておき、{0,1} の範囲内または範囲 {-1, 1}ニューラルネットワークへの入力として与えられる前に?Google でこれを検索していますが、情報が見つかりません (間違った用語を使用している可能性があります)。
- それは理にかなっていますか?
- それが、ニューラル ネットワーク用にテキストを前処理する方法ではないでしょうか。
- 代替手段はありますか?
2013 年 11 月の更新
私は長い間、ピートの答えを正しいものとして受け入れてきました。しかし、主にシンボリック知識と ANN について行ってきた最近の調査のために、私は深刻な疑問を抱いています。
Dario Floreano と Claudio Mattiussiは、著書の中で、分散エンコーディングを使用することで、このような処理が実際に可能であると説明してい。
実際、グーグルの学者で検索してみると、シンボリック知識をエンコードするために脳が分散エンコードを使用すると仮定されている神経科学の記事や論文が大量に存在します。
Teuvo Kohonenは、論文「Self Organizing Maps」で次のように説明しています。
ニューラル適応法則をシンボル セット (ベクトル変数のセットと見なされる) に適用すると、シンボル間の「論理距離」を表示する地形図が作成されると考える人もいるかもしれません。しかし、連続データと比較してシンボルの性質が異なるという問題が生じる。後者の場合、類似性は、連続エンコーディング間のメトリックの違いとして、常に自然な方法で表示されます。これは、メトリックが定義されていない単語などの個別の象徴的なアイテムには当てはまりません。記号の意味がその符号化から切り離されるのは、記号の性質そのものです。
しかし、Kohonen は SOM のシンボリック情報をうまく処理できました。
さらに、Alfred Ultsch 博士は論文「The Integration of Neural Networks with Symbolic Knowledge Processing」で、ANN での記号知識 (テキストなど) の処理方法を正確に扱っています。Ultsch は、シンボリック知識を処理するための次の方法論を提供します: ニューラル近似推論、ニューラル統合、イントロスペクション、および統合知識取得。とはいえ、グーグルの学者やその他の場所にあるものについては、ほとんど情報が見つかりません。
彼の答えのピートは、セマンティクスについて正しいです。通常、ANN のセマンティクスは切り離されています。ただし、以下の参考文献は、研究者が RBM をどのように使用して、異なる単語入力のセマンティクスの類似性を認識するように訓練したかについての洞察を提供します。したがって、セマンティクスを持つことは不可能ではありませんが、セマンティクスが必要な場合は、階層化されたアプローチまたは二次 ANN が必要になります。 .
Subsymbolic Neural Networks による自然言語処理、Risto Miikkulainen、1997 Word Observations に関する制限付きボルツマン マシンのトレーニング、GEDahl、Ryan.P.Adams、H.Rarochelle、2012
2021 年 1 月の更新
NLP とディープ ラーニングの分野では、過去数年間、そして私がその質問をして以来、研究が復活しています。現在、私が達成しようとしていたことをさまざまな方法で解決する機械学習モデルがあります。
ディープ ラーニングまたはニューラル ネットワークでテキストを前処理する方法について疑問に思っているこの質問にたどり着いた人のために、いくつかの役立つトピックを次に示します。いずれもアカデミックではありませんが、理解しやすく、同様のタスクの解決を開始するのに役立つトピックです。
私がその質問をしたとき、RNN、CNN、および VSM が使用され始めようとしていました。現在、ほとんどのディープ ラーニング フレームワークは広範な NLP サポートをサポートしています。上記がお役に立てば幸いです。