2

私は、大量の短いテキストをデータマイニングし、既存のカテゴリ名の大きなリストに基づいてこれらを分類するプロジェクトに取り組んできました。これを行うには、最初にデータから適切なテキスト コーパスを作成して、分類のための参照ドキュメントを作成し、次に分類の品質を許容レベルまで上げる方法を見つけなければなりませんでした。この部分は終了しました (幸いなことに、テキストの分類は、多くの人が多くの研究を行ってきたものです)。

次の問題は、さまざまなカテゴリを計算で相互にリンクする良い方法を見つけようとしているところです。つまり、「車」と「シボレー」が何らかの関連性があることをどのように認識するかを理解することです。これまでのところ、Cavnar や Trenkle などで説明されている N-Gram 分類方法を利用して、各カテゴリに対して作成したさまざまな参照ドキュメントを比較してみました。残念ながら、私がその方法から得た最高の結果は、カテゴリー間の約 50-55% の正しい関係であり、それらは最高の関係であり、全体的には約 30-35% であり、悲惨なほど低い.

他のアプローチもいくつか試しましたが、40% をはるかに超える関連リンクを取得できませんでした (関連性のない関係の例としては、カテゴリ「トラック」がカテゴリ「メイクアップ」に強く関連していることが挙げられます)。 」または「シボレー」に弱い(またはまったく関連しない)カテゴリ「おむつ」)。

今、私はこれを行うためのより良い方法を探してみましたが、何も見つからないようです (それでも、他の人が私よりもうまくやっていることがわかっています)。誰もこれについて経験がありますか?カテゴリ間の関係を作成するための使用可能な方法に関するヒントはありますか? 今のところ、私が試した方法では、十分なリレーションが得られないか、ジャンク リレーションの割合が高すぎます。

4

1 に答える 1

0

明らかに、そのマッチングを行う最善の方法は、分類法、「参照ドキュメント」の性質、および作成したい予想される関係に大きく依存します。

ただし、提供された情報に基づいて、次のことをお勧めします。

  1. 参照ドキュメントに基づいて、カテゴリごとに (文字ベースではなく) 単語ベースのユニグラムまたはバイグラム モデルを構築することから始めます。各カテゴリにこれらがほとんどない場合 (1 つしかないように思われます)、半教師付きアプローチを使用して、カテゴリごとに自動的に分類されたドキュメントも投入できます。モデルを構築するための比較的単純なツールは、CMU SLM ツールキットです。
  2. モデル内の各用語またはフレーズの相互情報量(インフォゲイン) を、他のカテゴリとの関係で計算します。カテゴリが類似している場合、意味のある結果を得るには、隣接するカテゴリのみを使用する必要がある場合があります。このステップにより、最良の分離用語により高いスコアが与えられます。
  3. トップインフォゲインの用語またはフレーズに基づいて、カテゴリを相互に関連付けます。これは、カテゴリ モデル間のユークリッド距離またはコサイン距離を使用するか、グラフベースのアルゴリズムや階層的クラスタリングなど、やや複雑な手法を使用して行うことができます。
于 2011-09-19T06:22:12.457 に答える