テキスト分類を行うとき、テキストが長い場合、単純なベイズ分類を使用して非常に満足のいくパフォーマンスが得られます。
ただし、Twitter のメッセージや Stackoverflow での質問の内容など、コンテキストが短いテキストになると、精度、再現率、ROC などのほぼすべての指標で非常に悪い結果が得られます...
これらの短いテキストの内容を分類するのに役立つ実用的な提案はありますか?
私はこれに大いに感謝します。
テキスト分類を行うとき、テキストが長い場合、単純なベイズ分類を使用して非常に満足のいくパフォーマンスが得られます。
ただし、Twitter のメッセージや Stackoverflow での質問の内容など、コンテキストが短いテキストになると、精度、再現率、ROC などのほぼすべての指標で非常に悪い結果が得られます...
これらの短いテキストの内容を分類するのに役立つ実用的な提案はありますか?
私はこれに大いに感謝します。
関連性を改善することは指数関数的に難しくなり、最終目標について考え、そこから作業する必要があります。ただし、近づける1つの方法は、追加のメトリックを追加することです。これは、メッセージの長さ、辞書のサイズ、記事のコンテキストです。
Twitterではなく長い記事を好むと仮定すると、長さのメトリックは記事により高い重みを与えます。
辞書のサイズは、ほとんどの場合、記事の長さに関連していますが、コンテキストにも密接に関連しています。つまり、特定の事柄に関する記事は、一度に複数の事柄について説明する同じ記事とは対照的に、そのコンテキストでは高いメトリックを持ちます。
コンテキストを構築するには、同義語の辞書をツリーのように構築し、それらの間に距離を置く必要があります。例:ソフトウェアは電子機器に関連するコンピューターに関連していますが、ソフトウェアは電子機器に関連するものが緩いです。
解決策を提供するために、迅速で汚い解決策は、短い記事からの単語を比較検討することです。