nlp - トレーニング前のコーパスのword2vec見出し語化

Question

Word2vec は、主に未加工のコーパスデータでトレーニングされているようです。ただし、見出し語化は、多くの意味的類似性タスクの標準的な前処理です。word2vec をトレーニングする前にコーパスを見出し語化した経験があるかどうか、またこれが有用な前処理ステップであるかどうか疑問に思っていました。

score 9 · Accepted Answer

これで何を解決したいのかが本当に重要だと思います。タスクによって異なります。

基本的にレンマタイゼーションによって、入力空間をまばらにすることで、十分なトレーニングデータがない場合に役立ちます。

しかし、Word2Vec はかなり大きいので、十分な大きさのトレーニングデータがあれば、レンマタイゼーションはあまり役に立たないはずです。

さらに興味深いのは、W2V (またはその他のもの) 内の単語ベクトルの既存の辞書に関してトークン化を行う方法です。「おいしいマフィンはニューヨークで\n3.88 ドルします」のように。['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New York'] にトークン化する必要があります。その後、W2V のベクトルに置き換えることができます。問題は、一部のトークナイザーが「New York」を ['New' 'York'] としてトークン化することですが、これはあまり意味がありません。(たとえば、NLTK はこの間違いを犯しています https://nltk.googlecode.com/svn/trunk/doc/howto/tokenize.html ) これは、複数単語のフレーズが多数ある場合に問題になります。

nlp - トレーニング前のコーパスのword2vec見出し語化

2 に答える 2

Related

Reference