matlab - ニューラルトレーニングネットワークのテキスト表現

Question

私は、Matlab で nntool を使用してニューラルトレーニングネットワークを開発しています。入力として、長さが異なる 11250 個のテキストファイルがあります (10 から 500 語まで、または冗長な単語を削除する場合は 10 から 200 語までとしましょう)。この入力テキストをデジタルデータとして表現し、トレーニングアルゴリズムを実行する良い方法です。単語の語彙を作成することを考えましたが、語彙には 16000 の異なる単語が含まれていることがわかりました。これは膨大です。一部のテキストファイルには共通の単語がいくつかあります。

score 0 · Accepted Answer

迅速な解決策については、「bag of words」または「tfidf」を探す必要があります。これが何かわからない場合は、https: //en.wikipedia.org/wiki/Vector_space_modelまたはhttps://en.wikipedia.org/wiki/Document_classificationから始めてください。

NLP に関する本を読んだことがありますか。たぶん、これは価値があるかもしれません: http://www.nltk.org/book/最初に。

matlab - ニューラル トレーニング ネットワークのテキスト表現

1 に答える 1

Related

Reference

matlab - ニューラルトレーニングネットワークのテキスト表現