私は、大量の短いテキストをデータマイニングし、既存のカテゴリ名の大きなリストに基づいてこれらを分類するプロジェクトに取り組んできました。これを行うには、最初にデータから適切なテキスト コーパスを作成して、分類のための参照ドキュメントを作成し、次に分類の品質を許容レベルまで上げる方法を見つけなければなりませんでした。この部分は終了しました (幸いなことに、テキストの分類は、多くの人が多くの研究を行ってきたものです)。
次の問題は、さまざまなカテゴリを計算で相互にリンクする良い方法を見つけようとしているところです。つまり、「車」と「シボレー」が何らかの関連性があることをどのように認識するかを理解することです。これまでのところ、Cavnar や Trenkle などで説明されている N-Gram 分類方法を利用して、各カテゴリに対して作成したさまざまな参照ドキュメントを比較してみました。残念ながら、私がその方法から得た最高の結果は、カテゴリー間の約 50-55% の正しい関係であり、それらは最高の関係であり、全体的には約 30-35% であり、悲惨なほど低い.
他のアプローチもいくつか試しましたが、40% をはるかに超える関連リンクを取得できませんでした (関連性のない関係の例としては、カテゴリ「トラック」がカテゴリ「メイクアップ」に強く関連していることが挙げられます)。 」または「シボレー」に弱い(またはまったく関連しない)カテゴリ「おむつ」)。
今、私はこれを行うためのより良い方法を探してみましたが、何も見つからないようです (それでも、他の人が私よりもうまくやっていることがわかっています)。誰もこれについて経験がありますか?カテゴリ間の関係を作成するための使用可能な方法に関するヒントはありますか? 今のところ、私が試した方法では、十分なリレーションが得られないか、ジャンク リレーションの割合が高すぎます。