私はデータ サイエンティストであり、職場で、すべての主要な生産ソリューションには最大でもランダム フォレストが含まれていることを見てきました。
xgboost のような機械学習アルゴリズムを本番環境で使用できないのはなぜですか? なぜ再現性が必要なのですか?
私はデータ サイエンティストであり、職場で、すべての主要な生産ソリューションには最大でもランダム フォレストが含まれていることを見てきました。
xgboost のような機械学習アルゴリズムを本番環境で使用できないのはなぜですか? なぜ再現性が必要なのですか?
すべての人に代わって話すことはできませんが、ほとんどの場合、決定には理由が必要です。これが正しい決定/予測であることをクライアント/上司に納得させる必要があります。ニューラル ネットワークやその他のブラック ボックス モデルを使用する場合は、結果の予測のみが得られ、運が良ければ信頼度の推定も得られます。
「ホワイト ボックス」モデルまたは解釈可能なモデルの方が優れています。サンプルの特定の特徴を指摘し、これらが結果として得られる予測の理由であると言うことができるからです。決定木 (深すぎない) または単純なしきい値処理は、このカテゴリに属します。
xgboost の概念を正しく理解できれば、新しいツリーをトレーニングして、以前のツリーの間違いを修正できます。これは、ツリーが独立していないため、解釈が難しいことを意味します。