問題タブ [natural-language-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - キーワードの依存関係を超えたテキスト分類と実際の意味の推測
テキストをPrivateまたはPublicとして分類するテキスト分類器を開発しようとしています。ドメインの例として、医療または健康情報を取り上げます。私が考えることができる典型的な分類器は、キーワードを主な識別器と見なしますよね? 怒鳴るようなシナリオはどうですか?両方のテキストに類似したキーワードが含まれていても、意味が異なる場合はどうなるでしょうか。
次のテキストは、誰かの個人的な (健康) 状況を明らかにしています (患者は癌を患っています):
私は2つに行ったことがclinics
ありますpcp
。解消かultrasound
としか言われなかったのですが、大きくなって足がつり始めています。それはあまりにも大きすぎて始めたので、それはあり得ないと言われました。私は今、怖くて恐れています。約9ヶ月前にしゃがんだ時だけ少し違和感を感じました。3か月前、しゃがんで洗濯物を片付けに行きました。ふくらはぎの底にあることに気づき、屈曲するとさらに目立つようになりました。最終的に4回の訪問の後、1回と1回cyst
hematoma
ache
PCP
cyst
injured
bump
cancer
hurt
pain
leg
lump
muscle
clinic
ultrasound
pcp
結果は正のようで、質量が大きくなっています。
【非公開】(正分類)
次のテキストは医師からのコメントであり、健康状態を明らかにするものではありません. 典型的な分類子モデルの弱点を紹介します。
怖がったり、悪いことを想定したりしないでくださいcancer
。私は私の中でいくつかのケースを経験しましたがclinic
、それは私にはよく知られているようです. あなたが言及したように、それは acyst
または aである可能性があり、大きくなってきているため、などhematoma
の追加が必要です。がその領域にあるか、またはそのサイズは、実際には何も伝えません。さらに数回専門にアクセスし、、 、などの特定のテストを行ってから、それがさらに大きくなるようにする必要があります。【私立】(分類間違いです。【公立】のはずです)diagnosis
biopsy
ache
lump
bad
clinics
biopsy
CT scan
pcp
ultrasound
lump
2 番目の段落は、明らかな理由から、現在のすべての分類子によって非公開として分類されました。類似したキーワード、有効な単語シーケンス、サブジェクトの存在により、分類器は非常に混乱しているように見えました。両方のコンテンツにI
, You
(名詞、代名詞) などのサブジェクトが含まれていても、Word2Vec から Doc2Vec まで、意味の推測からセマンティック埋め込みまで考えましたが、この問題に最適なソリューション アプローチを考えることができません。
分類の問題を処理する方法はありますか? 前もって感謝します。
これまでの進捗状況:
データは、患者/犠牲者が通常自分の状況を投稿し、医師/支援者がそれらに返信する公的情報源から収集したものです。クロール中は、投稿は私のプライベートクラスに属し、コメントはパブリッククラスに属していると思いました。全体として、5,000 + 5,000 の投稿/コメントから始めて、主要な前処理なしで単純なベイズ分類器を使用して約 60% を得ました。近いうちにニューラル ネットワークを試してみます。しかし、分類子に入力する前に、どちらのクラスにも適切な重みを付けて区別を改善するために、前処理を改善する方法を知りたいだけです。