ニューラル ネットワークを使用してテキスト メッセージを分類する方法を教えてください。例はありますか?テキスト メッセージを前処理してニューラル ネットワークをトレーニングするにはどうすればよいですか?
ありがとう
ニューラル ネットワークを使用してテキスト メッセージを分類する方法を教えてください。例はありますか?テキスト メッセージを前処理してニューラル ネットワークをトレーニングするにはどうすればよいですか?
ありがとう
あなたの質問はかなり漠然としていますが、私はそれを試してみますが、それはあなたが何をしたいかによって異なります. 単に特徴を抽出して、次のことを判断しようとしている場合:
次に、Weka は素晴らしいオプションです。一連のチュートリアルへのリンクは次のとおりです: https://www.youtube.com/watch?v=gd5HwYYOz2U
基本的に、関連すると思われる特徴とデータの可能な「クラス」を抽出し、.arff ファイルを出力するプログラムを作成する必要があります。クラスによって、文が果物に関するものか野菜に関するものかを判断しようとしている場合、2 つのクラスは果物と野菜になります。最初は複雑に見えるかもしれませんが、実際にはそれほど難しくありません。.arff ファイルを生成したら、これを Weka にフィードして無数の異なる分類子を実行し、データに最適なモデルを見つけ出すことができます。必要に応じて、このモデルをプログラムしてデータを操作できます。
Weka には相互検証も含まれており、結果の品質が、プログラムに供給しているテスト データを超えていることを本質的に保証します。この概念に慣れていない場合は、モデルをオーバートレーニングして、特定のトレーニング データ セットで良い結果を得るのは非常に簡単ですが、他のデータでテストすると、さらに悪い結果が得られます。
Weka .arff ファイル (参考: カナダ産業における労働交渉における最終和解):
@relation 'labor-neg-data'
@attribute 'duration' real
@attribute 'wage-increase-first-year' real
@attribute 'wage-increase-second-year' real
@attribute 'wage-increase-third-year' real
@attribute 'cost-of-living-adjustment' {'none','tcf','tc'}
@attribute 'working-hours' real
@attribute 'pension' {'none','ret_allw','empl_contr'}
@attribute 'standby-pay' real
@attribute 'shift-differential' real
@attribute 'education-allowance' {'yes','no'}
@attribute 'statutory-holidays' real
@attribute 'vacation' {'below_average','average','generous'}
@attribute 'longterm-disability-assistance' {'yes','no'}
@attribute 'contribution-to-dental-plan' {'none','half','full'}
@attribute 'bereavement-assistance' {'yes','no'}
@attribute 'contribution-to-health-plan' {'none','half','full'}
@attribute 'class' {'bad','good'}
@data
1,5,?,?,?,40,?,?,2,?,11,'average',?,?,'yes',?,'good'
2,4.5,5.8,?,?,35,'ret_allw',?,?,'yes',11,'below_average',?,'full',?,'full','good'
?,?,?,?,?,38,'empl_contr',?,5,?,11,'generous','yes','half','yes','half','good'
2,2,2,?,'none',40,'none',?,?,'no',11,'average','yes','none','yes','full','bad'
1,2,?,?,'tc',40,'ret_allw',4,0,'no',11,'generous','no','none','no','none','bad'
1,2.8,?,?,'none',38,'empl_contr',2,3,'no',9,'below_average','yes','half',?,'none','bad'
どこ ?欠落/不明なデータ ポイントを識別します。