1

ネットワークをテストするために、 Google の「Hello Prediction」アルゴリズムを再作成しようとしています。同じ場所からトレーニング サンプルを入手しました。


上記のリンクをたどるとは思わないので、「Hello Prediction」について簡単に説明します。これは、Google Prediction API の「hello world」の例であり、基本的には、スペイン語のテキスト文字列で構成される大きなトレーニング セットを使用して ANN をトレーニングする例です。 、英語とフランス語。この演習の終わりまでに、ネットワークは 3 つの言語のそれぞれを検出できるはずです。


今、私はデータをネットワークに送り込むことに直面しています。

可変長のテキスト文字列を操作して、固定サイズのネットワーク入力に入力するにはどうすればよいですか?

語順を考慮した 2 つのソリューションを見てきました。

  1. 文全体に収まる十分な大きさのネットワーク入力を作成します。これは最も現実的ですが、無駄な方法です。私はグーグルがより良い方法を思いついたと確信しています。

  2. 次のように、文を固定サイズ (n) 文字の部分文字列に分割します。n = 2 の場合、"abcde" は ["ab", "bc", "cd", de"] になります。

誰かがこれをうまく解決しましたか? #2 は #1 より優れていますか? 3番目の解決策はありますか?

ありがとうございました。

4

1 に答える 1

0

特徴抽出を試してみませんか? tf_idf は NLP で一般的に使用されており、他にも便利な数値機能を見つけることができると思います。

于 2013-08-05T13:07:36.257 に答える