問題タブ [data-science]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
docker - Docker Kitematic を使用しているブラウザーで Ipython ノートブック インターフェイスが表示されない
Kitematicでデータサイエンス環境の画像を見つけたのでインストールして使ってみました。しかし、私は正常に実行できましたが、ログには次のように書かれています
、開けませんlocalhost:8888
。誰か助けてくれませんか?
Docker ポート:8888
MAC IP ポート: 192.168.99.100:32768
以下はKitematicのコンテナログです。
machine-learning - 決定木のエントロピー計算対象
2種類の例をいくつか見つけました。
単機能
アイテム クラスが 2 つしかないデータが与えられた場合。たとえば、青と黄色のボールのみ。つまり、この場合の特徴は色だけです。これは、エントロピーに適用可能な「分割統治」ルールを示す明確な例です。しかし、これは予測や分類の問題にとっては意味がありません。なぜなら、オブジェクトに特徴が 1 つしかなく、その値がわかっている場合、「このボールは黄色」であると判断するためにツリーは必要ないからです。
複数の機能
複数の特徴と予測する特徴 (トレーニング データとして知られている) を含むデータが与えられます。各特徴の最小平均エントロピーに基づいて述語を計算できます。人生により近いですね。アルゴリズムを実装しようとしない限り、それは明らかでした。
そして今、私の心に衝突があります。
既知の機能 (ノードごとに 1 つ) に対して相対的にエントロピーを計算すると、未知の機能がすべての既知の機能に厳密に依存している場合にのみ、ツリーを使用した分類で意味のある結果が得られます。そうしないと、単一のバインドされていない既知の機能がすべての予測を破り、間違った方法で決定を下す可能性があります。しかし、分類時に予測したい特徴の値に対してエントロピーを計算すると、最初の無意味な例に戻ります。このように、ノードに使用する既知の機能に違いはありません...
ツリー構築プロセスについての質問です。
既知の機能についてのみエントロピーを計算し、すべての既知の機能が未知のものにバインドされていると信じるべきですか? または、未知の機能 (トレーニング データで知られている) のエントロピーを計算して、どの機能が結果に影響を与えるかを判断する必要がありますか?
java - weka & グラフ トレーニング/テスト エラーで、あるセットから別のセットに分類子を適用する方法
weka に関する 2 つの部分からなる質問。
1) セットで分類子をトレーニングしたら、その分類子を別のセットで使用するにはどうすればよいですか?
2) weka でエラー率/学習曲線をグラフ化するにはどうすればよいですか?
現在、私はエクスプローラーツール(GUI)を使用しています。データセットをトレーニングとテストの分割 (60/40) に分割しました。トレーニング セットで 10 倍の交差検証を実行し、これをテスト セットに適用する必要があります。
ただし、新しく作成した分類子を 2 番目のセットに適用する方法も、トレーニング/テスト エラー データをグラフ化する場所もわかりません。
python - scipy と numpy で動作する clojure
scipy、numpy、scikit-learn などでデータ サイエンスを行う手段として、clojure から python を呼び出す良い方法はありますか?
Java ではなく Python で実行される clojure の実装については知っていますが、プロジェクトで Java ライブラリも呼び出す必要があるため、これはうまくいきません。Jython についても知っていますが、Clojure でこれをきれいに使用する方法を知りません。
プロジェクトで Clojure を使用したいのは、言語として Clojure を好むからです。しかし、Python には信じられないほどのコミュニティがあり、最も美しく、よく設計されたライブラリがいくつかあることは否定できません。
apache-spark - すべてのユーザーに同じ推奨アイテムを提供する Spark ALS-WR
さまざまな種類の商品 (動きの速い食料品から動きの少ない電化製品まで) を扱うスーパーマーケット向けのレコメンデーション システムを構築しようとしています。より頻繁に大量に購入されるアイテムもあれば、一度しか購入されないアイテムもあります。
100 以上の部門の 30,000 以上の SKU にわたる 25,000 以上の顧客からの 4 か月間の購入履歴データがあります。推奨事項を生成するために、Spark で ALS-WR を実行しました。驚いたことに、お客様ごとに上位 15 の推奨事項が寄せられており、バリエーションはほとんどありません。
推奨事項を以下のように多様化するために、いくつかの手段を
試し
まし
た
。パラメーターの組み合わせに従って使用されます - ラムダ = 0.01 から 300、アルファ = 5 から 50、ランク = 10、20、30 および反復回数 = 10、20
- 考慮される優先度は明示的です。
ALS はこのような異種データに使用できると思いますか? はいの場合、レコメンデーションを多様化し、パーソナライズするためにどのような変更を加えますか?
r - RでPDFをダウンロードする際に必要な支援
以下のコードではhandle
、PDF をダウンロードしようとするたびに、この部分でエラーが発生しているようです。
それらの PDF をダウンロードする方法についてのアイデアが尽きてしまいました。これが、すべてのPDFへのリンクを生成する方法です。
ps: PDF をダウンロードする他の方法を考えられる場合は、コードを共有してください。
一部の URL ではエラーが発生する可能性があることに注意してください。日と月が 10 未満の場合、先頭にゼロがない場合があるためです。