問題タブ [text2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
270 参照

r - 2 セットのドキュメント間の総コサインと Jaccard 距離を計算する

オンライン ニュース Web サイトから要約のリストを収集し、元のラベル (政治、エンターテイメント、スポーツ、金融など) を使用して、トピックごとに手動でラベルを付けました。ここで、任意の 2 つのトピック (たとえば、「政治」というラベルの付いたアブストラクトと「金融」というラベルの付いたアブストラクト) の間で、アブストラクトの単語の使用方法の類似性を比較したいと思います。ただし、各トピックに該当するニュースのアブストラクトの数が異なり、2 つのアブストラクト間の単語の長さも異なるため、ドキュメントごとのコサイン類似度を計算することは困難です。

そこで私が行ったのは、サンプル データをトピックごとに分割し、それらを解析してステミングし、各要約 (行エントリ) のトークンをベクトル化し、dtm を構築して比較用のベクトル空間を作成することで、ビネットをtext2vec 参照することでした。

text2vecビネットにリストされているメソッドは簡単ですが、出力はマトリックス形式で生成されます。2 つの異なるトピックの下でラベル付けされた 2 つのドキュメント セット間で単一の類似度 (たとえば、0 と 1 または (-1, 1) の間の何か) を取得する方法があるかどうか疑問に思っています。

現在のコードを以下に示します。3 つの異なるトピックに分類されるニュース要約の小さな 9 行のデータも提供されます (各トピックに属するドキュメントの数と単語の長さがすべて異なることに注意してください: トピックに関連するニュース「スポーツ」には 2 つのエントリ、トピック「政治」には 4 つのエントリ、トピック「金融」には 3 つのエントリがあります)。このような小さなデータから意味のある類似性の結果が得られるとは期待しないでください。これは単なる例としての役割を果たします。

誰かが私の既存のコードを変更して、任意の 2 つのトピック間の単一のペアワイズ類似度を取得する方法を指摘できれば、非常にありがたいです。