ruby - Ruby で LSA 変換を使用して一連のドキュメントから類義語を検出する

Question

LSA 変換を文書配列に適用した後、これをどのように使用して類義語を生成できますか? たとえば、次のサンプルドキュメントがあります。

D1 = モビリゼーション
D2 = 反射性舗装
D3 = 交通の維持
D4 = 特別な迂回路
D5 = 私道の商用資材

            D1    D2    D3    D4    D5    
commerci[ +0.00 +0.00 +0.00 +0.00 +1.00 ]  
  materi[ +0.00 +0.00 +0.00 +0.00 +1.00 ]  
drivewai[ +0.00 +0.00 +0.00 +0.00 +1.00 ]  
 special[ +0.00 +0.00 +0.00 +1.00 +0.00 ]  
  detour[ +0.00 +0.00 +0.00 +1.00 +0.00 ]  
 mainten[ +0.00 +0.00 +1.00 +0.00 +0.00 ]  
 traffic[ +0.00 +0.00 +1.00 +0.00 +0.00 ]  
 reflect[ +0.00 +1.00 +0.00 +0.00 +0.00 ]  
pavement[ +0.00 +1.00 +0.00 +0.00 +0.00 ]  
  mobil [ +1.00 +0.00 +0.00 +0.00 +0.00 ]

TFIDF 変換の適用

            D1    D2    D3    D4    D5  
commerci[ +0.00 +0.00 +0.00 +0.00 +0.54 ]  
  materi[ +0.00 +0.00 +0.00 +0.00 +0.54 ]  
drivewai[ +0.00 +0.00 +0.00 +0.00 +0.54 ]  
 special[ +0.00 +0.00 +0.00 +0.80 +0.00 ]  
  detour[ +0.00 +0.00 +0.00 +0.80 +0.00 ]  
 mainten[ +0.00 +0.00 +0.80 +0.00 +0.00 ]  
 traffic[ +0.00 +0.00 +0.80 +0.00 +0.00 ]  
 reflect[ +0.00 +0.80 +0.00 +0.00 +0.00 ]  
pavement[ +0.00 +0.80 +0.00 +0.00 +0.00 ]  
  mobil [ +1.61 +0.00 +0.00 +0.00 +0.00 ]

LSA 変換の適用

            D1    D2    D3    D4    D5  
commerci[ +0.00 +0.00 +0.00 +0.00 +0.00 ]  
  materi[ +0.00 +0.00 +0.00 +0.00 +0.00 ]  
drivewai[ +0.00 +0.00 +0.00 +0.00 +0.00 ]  
 special[ +0.00 +0.00 +0.00 +0.80 +0.00 ]  
  detour[ +0.00 +0.00 +0.00 +0.80 +0.00 ]  
 mainten[ +0.00 +0.00 +0.80 +0.00 +0.00 ]  
 traffic[ +0.00 +0.00 +0.80 +0.00 +0.00 ]  
 reflect[ +0.00 +0.80 +0.00 +0.00 +0.00 ]  
pavement[ +0.00 +0.80 +0.00 +0.00 +0.00 ]  
  mobil [ +1.61 +0.00 +0.00 +0.00 +0.00 ]

score 3 · Accepted Answer

まず、この例は機能しません。その背後にある原則は、単語が似たような文脈で出現する頻度が高いほど、意味がより関連しているということです。したがって、入力ドキュメント間にある程度の重複が必要です。段落の長さのドキュメントが理想的です (適切な数の単語があり、段落ごとに 1 つのトピックがある傾向があるため)。

LSA が同義語認識にどのように役立つかを理解するには、最初に単語出現のベクトル空間表現 (そこにある最初の行列) が同義語認識にどのように役立つかを理解する必要があります。これは、この高次元ベクトル空間内の 2 つのアイテム間の距離を、それらの類似性の尺度として計算できるためです (2 つのアイテムが一緒に発生する頻度の尺度である場合)。LSA の魔法は、ベクトル空間の次元を再シャッフルすることです。これにより、一緒には発生しないが同様のコンテキストで発生するアイテムは、同様の次元が互いに崩壊することによってまとめられます。

TFIDF 重み関数の考え方は、コーパスの小さなサブセットに多く出現する単語に高い重みを与え、どこでも使用される単語に低い重みを与えることによって、ドキュメント間の違いを強調することです。より徹底した説明。

「LSA」変換は、実際には特異値分解 (SVD) であり、従来、潜在的意味分析または潜在的意味索引付けは、TFIDF と SVD の組み合わせを指し、ベクトル空間の次元を削減するのに役立ちます。列の数を減らして、より小さく、より簡潔な説明にします (前述のとおり)。

したがって、質問の要点を理解するには、対応する 2 つのベクトル (行) に距離関数を適用することで、単語がどれほど似ているかを知ることができます。いくつかの距離関数から選択できますが、最も一般的に使用されるのはコサイン距離(2 つのベクトル間の角度を測定します) です。

これが物事をより明確にすることを願っています。

ruby - Ruby で LSA 変換を使用して一連のドキュメントから類義語を検出する

1 に答える 1

Related

Reference