問題タブ [crfsuite]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
2580 参照

scikit-learn - AttributeError: 'RandomizedSearchCV' オブジェクトに属性 'grid_scores_' がありません

このコードを試したとき:

エラーが発生します:

AttributeError: 'RandomizedSearchCV' オブジェクトに属性 'grid_scores_' がありません

sklearn-crfsuite バージョン = 0.3.6

0 投票する
0 に答える
62 参照

python - 開発セットで CRF ハイパーパラメータを最適化した後、NER の F1 スコアが低くなるのはなぜですか?

各テキストがタプル (トークン、POS タグ、OBI ラベル) のリストで表されるデータセットを、サイズ比 0.6:0.2:0.2 でトレーニング セット、開発セット、およびテスト セットに分割し、Name Entity を実行しようとしました。を使用した条件付きランダム フィールド ( CRF )による認識 ( NER ) 。開発セットのハイパーパラメーターを最適化した後、テスト セットの加重平均 F1 スコアは、ハイパーパラメーターが盲目的に規定されているベースライン ランのスコアよりも低くなります。直感に反すると思います。sklearn_crfsuite

私はこの問題がかなりあいまいであることを知っています。しかし、どこを見るべきかについて何かアドバイスはありますか?これが通常の状況なのか、モデルがどこかでうまくいかないのか、どうすれば確認できますか? より大きな開発セットを使用する必要がありますか? 交差検証によってハイパーパラメータを最適化する方が適切ですか? それとも、機能を変更するために戻る必要がありますか?

ところで、さまざまなデータ ソースがこの問題を引き起こす可能性があることを認識しているので、特にチェックします。テキストの長さ、POS タグ、および OBI ラベルの分布はすべて、トレーニング セット、開発セット、およびテスト セットで十分に類似しているように見えます。