XGBOOST ライブラリを使用して売上予測をしようとしています。しかし、私は Python よりも Java に精通しているため、Java API を使用しています。また、検証しようとしているもう 1 つのことは、同じデータセットを使用してモデルをトレーニングするときに、Python と Java を使用した場合にパフォーマンスに関連する利点があるかどうかです。
しかし、問題は、 Pandas、SciKitなどに対応する Python の同等のライブラリを見つけるのに苦労していることです。そのため、次のライブラリを使用して DataFrame を構築し、それらを操作しました。次に、それを CSV ファイルにダンプし、別のライブラリを使用してデータを読み取り、トレーニング データ セットと検証データ セットの 80/20 分割を実行します。データを XGBOOST ライブラリに読み込んで DMatrix を作成する前に、もう一度出力を CSV ファイルにダンプします。
ライブラリ:
- DataFrameの結合
- データを 80/20 に分割するための Weka
- モデリング用の公式 XGBOOST JVM パッケージ
これは、Java でこの分析を実行する効率的または正しい方法ではないことを私は知っています。しかし同時に、これがすべてJavaまたはJavaのライブラリを使用して行われている例は見当たりません。
ライブラリの Java 実装を使用してデータの XGBOOST 分析を実行した人がいるかどうかを確認したかったのです。また、パッケージを使用して DataFrame を作成した場合は、データをトレーニング データセットとテスト データセットに分割する前に、操作などを実行します。
どんな助けでも彼は高く評価します。