Word2vec は、主に未加工のコーパス データでトレーニングされているようです。ただし、見出し語化は、多くの意味的類似性タスクの標準的な前処理です。word2vec をトレーニングする前にコーパスを見出し語化した経験があるかどうか、またこれが有用な前処理ステップであるかどうか疑問に思っていました。
14146 次
2 に答える
9
これで何を解決したいのかが本当に重要だと思います。タスクによって異なります。
基本的にレンマタイゼーションによって、入力空間をまばらにすることで、十分なトレーニング データがない場合に役立ちます。
しかし、Word2Vec はかなり大きいので、十分な大きさのトレーニング データがあれば、レンマタイゼーションはあまり役に立たないはずです。
さらに興味深いのは、W2V (またはその他のもの) 内の単語ベクトルの既存の辞書に関してトークン化を行う方法です。「おいしいマフィンはニューヨークで\n3.88 ドルします」のように。['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New York'] にトークン化する必要があります。その後、W2V のベクトルに置き換えることができます。問題は、一部のトークナイザーが「New York」を ['New' 'York'] としてトークン化することですが、これはあまり意味がありません。(たとえば、NLTK はこの間違いを犯しています https://nltk.googlecode.com/svn/trunk/doc/howto/tokenize.html ) これは、複数単語のフレーズが多数ある場合に問題になります。
于 2014-05-27T09:02:31.873 に答える