9

テキストをPrivateまたはPublicとして分類するテキスト分類器を開発しようとしています。ドメインの例として、医療または健康情報を取り上げます。私が考えることができる典型的な分類器は、キーワードを主な識別器と見なしますよね? 怒鳴るようなシナリオはどうですか?両方のテキストに類似したキーワードが含まれていても、意味が異なる場合はどうなるでしょうか。

次のテキストは、誰かの個人的な (健康) 状況を明らかにしています (患者は癌を患っています):

私は2つに行ったことがclinicsありますpcp。解消かultrasoundとしか言われなかったのですが、大きくなって足がつり始めています。それはあまりにも大きすぎて始めたので、それはあり得ないと言われました。私は今、怖くて恐れています。約9ヶ月前にしゃがんだ時だけ少し違和感を感じました。3か月前、しゃがんで洗濯物を片付けに行きました。ふくらはぎの底にあることに気づき、屈曲するとさらに目立つようになりました。最終的に4回の訪問の後、1回と1回cysthematomaachePCPcystinjuredbumpcancerhurtpainleglumpmuscleclinicultrasoundpcp結果は正のようで、質量が大きくなっています。
【非公開】(正分類)

次のテキストは医師からのコメントであり、健康状態を明らかにするものではありません. 典型的な分類子モデルの弱点を紹介します。

怖がったり、悪いことを想定したりしないでくださいcancer。私は私の中でいくつかのケースを経験しましたがclinic、それは私にはよく知られているようです. あなたが言及したように、それは acystまたは aである可能性があり、大きくなってきているため、などhematomaの追加が必要です。がその領域にあるか、またはそのサイズは、実際には何も伝えません。さらに数回専門にアクセスし、、 、などの特定のテストを行ってから、それがさらに大きくなるようにする必要があります。【私立】(分類間違いです。【公立】のはずです)diagnosisbiopsyachelumpbadclinicsbiopsyCT scanpcpultrasoundlump

2 番目の段落は、明らかな理由から、現在のすべての分類子によって非公開として分類されました。類似したキーワード、有効な単語シーケンス、サブジェクトの存在により、分類器は非常に混乱しているように見えました。両方のコンテンツにI, You(名詞、代名詞) などのサブジェクトが含まれていても、Word2Vec から Doc2Vec まで、意味の推測からセマンティック埋め込みまで考えましたが、この問題に最適なソリューション アプローチを考えることができません。

分類の問題を処理する方法はありますか? 前もって感謝します。

これまでの進捗状況:
データは、患者/犠牲者が通常自分の状況を投稿し、医師/支援者がそれらに返信する公的情報源から収集したものです。クロール中は、投稿は私のプライベートクラスに属し、コメントはパブリッククラスに属していると思いました。全体として、5,000 + 5,000 の投稿/コメントから始めて、主要な前処理なしで単純なベイズ分類器を使用して約 60% を得ました。近いうちにニューラル ネットワークを試してみます。しかし、分類子に入力する前に、どちらのクラスにも適切な重みを付けて区別を改善するために、前処理を改善する方法を知りたいだけです。

4

3 に答える 3