問題タブ [crfsuite]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scikit-learn - AttributeError: 'RandomizedSearchCV' オブジェクトに属性 'grid_scores_' がありません
このコードを試したとき:
エラーが発生します:
AttributeError: 'RandomizedSearchCV' オブジェクトに属性 'grid_scores_' がありません
sklearn-crfsuite バージョン = 0.3.6
python - 開発セットで CRF ハイパーパラメータを最適化した後、NER の F1 スコアが低くなるのはなぜですか?
各テキストがタプル (トークン、POS タグ、OBI ラベル) のリストで表されるデータセットを、サイズ比 0.6:0.2:0.2 でトレーニング セット、開発セット、およびテスト セットに分割し、Name Entity を実行しようとしました。を使用した条件付きランダム フィールド ( CRF )による認識 ( NER ) 。開発セットのハイパーパラメーターを最適化した後、テスト セットの加重平均 F1 スコアは、ハイパーパラメーターが盲目的に規定されているベースライン ランのスコアよりも低くなります。直感に反すると思います。sklearn_crfsuite
私はこの問題がかなりあいまいであることを知っています。しかし、どこを見るべきかについて何かアドバイスはありますか?これが通常の状況なのか、モデルがどこかでうまくいかないのか、どうすれば確認できますか? より大きな開発セットを使用する必要がありますか? 交差検証によってハイパーパラメータを最適化する方が適切ですか? それとも、機能を変更するために戻る必要がありますか?
ところで、さまざまなデータ ソースがこの問題を引き起こす可能性があることを認識しているので、特にチェックします。テキストの長さ、POS タグ、および OBI ラベルの分布はすべて、トレーニング セット、開発セット、およびテスト セットで十分に類似しているように見えます。