バックストーリー*私は最近、特定のがんと診断される可能性を予測するモデルを作成するために Excel を使用することから切り替えました。モデルは Excel ファイルで作成され、サイズと複雑さの両方が増大しました。Excel ソルバー プラットフォームを使用してシミュレーションを繰り返しました。ファイルのサイズは 500 MB 以上になりました。基本的に、「ビッグ データ」の領域に移行し始めていました。 .*
スタック オーバーフロー コミュニティへの私の質問は、この研究を継続するための最良の方法論は何かということです。私の推測では、データをデータベースに保存し、個々の分析のために各パラメーターを呼び出すことが可能です。私の古い Excel の方法論は、各パラメータの非線形回帰を (過去のデータから) 使用していました。(その個々のパラメータに固有の)がんを発症する可能性の割合の計算を可能にし、使用したアルゴリズムは各パラメータに重みを付けて、そこから最終的なスコアを達成しました。人がそのがんにかかる可能性を計算するために、ロジスティック回帰を実行します。
提案、コメント、ポインタ、および建設的な批判は大歓迎です。私は最近、この作業を続けるために Excel から Python に切り替えました。よろしくお願いします AEA