私は、Matlab で nntool を使用してニューラル トレーニング ネットワークを開発しています。入力として、長さが異なる 11250 個のテキスト ファイルがあります (10 から 500 語まで、または冗長な単語を削除する場合は 10 から 200 語までとしましょう)。この入力テキストをデジタル データとして表現し、トレーニング アルゴリズムを実行する良い方法です。単語の語彙を作成することを考えましたが、語彙には 16000 の異なる単語が含まれていることがわかりました。これは膨大です。一部のテキスト ファイルには共通の単語がいくつかあります。
1 に答える
0
迅速な解決策については、「bag of words」または「tfidf」を探す必要があります。これが何かわからない場合は、https: //en.wikipedia.org/wiki/Vector_space_modelまたはhttps://en.wikipedia.org/wiki/Document_classificationから始めてください。
NLP に関する本を読んだことがありますか。たぶん、これは価値があるかもしれません: http://www.nltk.org/book/最初に。
于 2016-05-04T07:34:58.397 に答える