テーブルには約 5000 の用語があり、それらを意味のあるカテゴリにグループ化したいと考えています。
たとえば、いくつかの用語は次のとおりです。
日産
フォード
逮捕された
ジープ
裁判所
その結果、Nissan、Ford、Jeep が 1 つのカテゴリにグループ化され、Arrested と Court が別のカテゴリにグループ化されるはずです。私はスタンフォード分類器NLPを見ました。これが私のためにこれを行うことを選択する正しいものであると仮定するのは正しいですか?
テーブルには約 5000 の用語があり、それらを意味のあるカテゴリにグループ化したいと考えています。
たとえば、いくつかの用語は次のとおりです。
日産
フォード
逮捕された
ジープ
裁判所
その結果、Nissan、Ford、Jeep が 1 つのカテゴリにグループ化され、Arrested と Court が別のカテゴリにグループ化されるはずです。私はスタンフォード分類器NLPを見ました。これが私のためにこれを行うことを選択する正しいものであると仮定するのは正しいですか?
これは、Google がリリースしたword2vecモデルが役立つかもしれない興味深い問題です。
簡単に言えば、単語は、モデルによって生成された N 次元ベクトルによって表されます。Google は、ニュース部門の 1,000 億語以上でトレーニングされたモデルから 300 次元のベクトルを返す優れたモデルを提供しています。
興味深いことに、これらのベクトルにはセマンティクスがエンコードされています。King、Man、Woman という単語のベクトルがあるとします。単純な式 (King - Man) + Woman は、Queen のベクトルに非常に近いベクトルを生成します。
これは、単語間の類似性を判断するために、距離計算 (コサイン距離がデフォルトですが、ベクトルで独自のものを使用できます) によって行われます。
あなたの例では、Jeep と Ford の間の距離は、Jeep と Arrested の間よりもはるかに小さくなります。これにより、用語を「論理的に」グループ化できます。