問題タブ [text-comparison]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
194 参照

python - Python 高速テキスト テキスト分類

私は、短いテキストのテキスト分類を使用して、短い作業レポートがどの程度「優れている」かを分類しようとしています。この段階では、__label__int と呼ぶ "干渉動作" というラベルを 1 つだけ作成しました。良いレポートから取った文とどれだけ一致するかでテキストを比較したい。独自のトレーニング テキスト ドキュメントを作成しました。サンプルは次のとおりです。

__label__int 攻撃性データは低く、発生時に安定しています。
__label__int 駆け落ちの頻度が減少しました。
__label__int プロパティ破壊データは低く、発生時に安定しています。
__label__int 違反頻度は発生時に停滞しています。
__label__int 癇癪の持続時間は短く、数分で安定しています。
__label__int 攻撃頻度は増加傾向にあります。
__label__int 泣く割合が減少傾向にあります。
__label__int 駆け落ちの頻度は減少傾向にあります。

私が書いたコードは次のとおりです。

しかし、私は次の出力を取得し続けます:

0M ワードの読み取り ワード数: 94 ラベル数: 1 N 0 P@1 nan R@1 nan 進行状況: 100.0% ワード/秒/スレッド: 12881 lr: 0.000000 avg.loss: 0.000000 ETA: 0h 0m 0s

text_valid.txt は、これらの用語が含まれていることがわかっているファイルの 1 つなので、適切な比較を期待しています。カスタム ラベル付きデータ セットの作成方法については、オンラインで何も見つかりませんでした。おそらく私のトレーニングデータに問題がありますか? 言葉が多すぎる?または私のコードは不完全ですか?