java - ニューラルネットワークによるテキスト分類

Question

ニューラルネットワークを使用してテキストメッセージを分類する方法を教えてください。例はありますか？テキストメッセージを前処理してニューラルネットワークをトレーニングするにはどうすればよいですか?

ありがとう

score 4 · Accepted Answer

あなたの質問はかなり漠然としていますが、私はそれを試してみますが、それはあなたが何をしたいかによって異なります. 単に特徴を抽出して、次のことを判断しようとしている場合:

機能の選択は適切です
どの機械学習アルゴリズム/構造を使用するか

次に、Weka は素晴らしいオプションです。一連のチュートリアルへのリンクは次のとおりです: https://www.youtube.com/watch?v=gd5HwYYOz2U

基本的に、関連すると思われる特徴とデータの可能な「クラス」を抽出し、.arff ファイルを出力するプログラムを作成する必要があります。クラスによって、文が果物に関するものか野菜に関するものかを判断しようとしている場合、2 つのクラスは果物と野菜になります。最初は複雑に見えるかもしれませんが、実際にはそれほど難しくありません。.arff ファイルを生成したら、これを Weka にフィードして無数の異なる分類子を実行し、データに最適なモデルを見つけ出すことができます。必要に応じて、このモデルをプログラムしてデータを操作できます。

Weka には相互検証も含まれており、結果の品質が、プログラムに供給しているテストデータを超えていることを本質的に保証します。この概念に慣れていない場合は、モデルをオーバートレーニングして、特定のトレーニングデータセットで良い結果を得るのは非常に簡単ですが、他のデータでテストすると、さらに悪い結果が得られます。

Weka .arff ファイル (参考: カナダ産業における労働交渉における最終和解):

@relation 'labor-neg-data'
@attribute 'duration' real
@attribute 'wage-increase-first-year' real
@attribute 'wage-increase-second-year' real
@attribute 'wage-increase-third-year' real
@attribute 'cost-of-living-adjustment' {'none','tcf','tc'}
@attribute 'working-hours' real
@attribute 'pension' {'none','ret_allw','empl_contr'}
@attribute 'standby-pay' real
@attribute 'shift-differential' real
@attribute 'education-allowance' {'yes','no'}
@attribute 'statutory-holidays' real
@attribute 'vacation' {'below_average','average','generous'}
@attribute 'longterm-disability-assistance' {'yes','no'}
@attribute 'contribution-to-dental-plan' {'none','half','full'}
@attribute 'bereavement-assistance' {'yes','no'}
@attribute 'contribution-to-health-plan' {'none','half','full'}
@attribute 'class' {'bad','good'}
@data
1,5,?,?,?,40,?,?,2,?,11,'average',?,?,'yes',?,'good'
2,4.5,5.8,?,?,35,'ret_allw',?,?,'yes',11,'below_average',?,'full',?,'full','good'
?,?,?,?,?,38,'empl_contr',?,5,?,11,'generous','yes','half','yes','half','good'
2,2,2,?,'none',40,'none',?,?,'no',11,'average','yes','none','yes','full','bad'
1,2,?,?,'tc',40,'ret_allw',4,0,'no',11,'generous','no','none','no','none','bad'
1,2.8,?,?,'none',38,'empl_contr',2,3,'no',9,'below_average','yes','half',?,'none','bad'

どこ？欠落/不明なデータポイントを識別します。

java - ニューラル ネットワークによるテキスト分類

1 に答える 1

Related

Reference

java - ニューラルネットワークによるテキスト分類