次のステートメントを検討してください
We are not talking about a well established company in the NASDAQ
I will not initiate any trades until those clowns hammer out a deal
私は単純な単純ベイズ分類器を書いています。基本的には、トレーニングセットのステートメントを手作業で(肯定的または否定的な感情として)マークし、それに応じてステートメントを構成する単語を保存します。
問題:これらのステートメントの両方を否定的な感情を持つものとしてマークすると、「よく」、「確立された」(ステートメント1)および「任意」、「まで」(ステートメント2)という単語は個別に否定的なものとしてマークされます。一方、別の場合(つまり、「この会社はうまくいっています」)、同じ単語(この場合は「よく」)は肯定としてマークされ、「よく」-1 + 1=0の感情の合計になります。これらの単語を否定語としてタグ付けすることで、これを克服します。たとえば、次のようになります。
We are talking about a not-well not-established company in the NASDAY.
I will initiate not-anymore trades not-until those clowns hammer out a deal
これらの種類の単語にタグを付けるための標準的または最良の方法はありますか(同じグループの単語であるかどうかさえわかりません)?明らかに、「会社」にタグを付けることは意味がありません。「会社ではない」は感傷的な価値を持ちません。私は(PHPで)否定語の後のすべての単語にタグを付ける関数を作成しましたが(not、no、could n'tなど)、それらの多くは後で実際には意味がありませんでした( "not-company"、 " not-NASDAQ」、「not-clowns」)。
英語は私の母国語ではないので、ここでマークした単語の一般名があるかどうか、そして私が望むものが(初歩的な)可能かどうかを尋ねています。可能性のある例外(二重否定など)がたくさんあることは承知していますが、それには入りたくありません。これが可能であれば、多くの分野をカバーできると思います。