問題タブ [nltk-trainer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python 2.x - trainSet と testSet を使用して NLTK Naive Bayes 分類の結果を取得する方法
テキストを含む犯罪の種類を識別するテキスト パーサーを構築しています。私のクラスは、2 つの csv ファイル (トレーニング用のファイルとテスト用のファイル) のテキストをロードするように作成されました。私のクラスのメソッドが構築された方法は、テキストを迅速に処理するため、ストップワードを削除するため、特徴のベクトルを抽出するためなどです。以下のコードに従ってください。
Main では、通常の Naive Bayes を使用して精度を確認し、次に Naive Bayes を相互検証して精度を確認しました。ここで、テスト用のテキストを含む CSV で既にトレーニングされた Naive Bayes をテストしたいと思いました。場合によっては、テスト ベースで並べ替えをテストします。
私の方法def classificaTexto(tweet):
。この仕事をするだけですが、すでに訓練された分類器で使用することさえできません。次のようにテキストを作成すると
メソッドはその仕事と並べ替えを行います。
追加情報: 私の csv はこの形式になっています。例: テキストの前の数字は犯罪チームを表します。メソッドを使用できるようにしました。def classificaTexto(tweet):
python - 文字間にスペースがある単語の扱いは?
ダリ語で使用nltk.word_tokenize
しています。問題は、1 つの単語の間にスペースがあることです。
たとえば、生命を意味する言葉。そして同じです。他にもたくさんの言葉があります。文字で終わるすべての単語は、スペースを空ける必要があります。それ以外の場合は、 のように組み合わせることができます。 "زنده گی"
"ه"
"زندهگی"
[tag:regex]
ある単語の一部が終わる単語をトークン化しないでください。"ه"
その後、文字が表示されます"گ "
。