“data-science”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

197 参照

docker - Docker Kitematic を使用しているブラウザーで Ipython ノートブックインターフェイスが表示されない

Kitematicでデータサイエンス環境の画像を見つけたのでインストールして使ってみました。しかし、私は正常に実行できましたが、ログには次のように書かれています

、開けませんlocalhost:8888。誰か助けてくれませんか？

Docker ポート:8888

MAC IP ポート: 192.168.99.100:32768

以下はKitematicのコンテナログです。

2016-02-01T06:04:01.090

0 投票する

1 に答える

414 参照

machine-learning - 決定木のエントロピー計算対象

2種類の例をいくつか見つけました。

単機能

アイテムクラスが 2 つしかないデータが与えられた場合。たとえば、青と黄色のボールのみ。つまり、この場合の特徴は色だけです。これは、エントロピーに適用可能な「分割統治」ルールを示す明確な例です。しかし、これは予測や分類の問題にとっては意味がありません。なぜなら、オブジェクトに特徴が 1 つしかなく、その値がわかっている場合、「このボールは黄色」であると判断するためにツリーは必要ないからです。

複数の機能

複数の特徴と予測する特徴 (トレーニングデータとして知られている) を含むデータが与えられます。各特徴の最小平均エントロピーに基づいて述語を計算できます。人生により近いですね。アルゴリズムを実装しようとしない限り、それは明らかでした。

そして今、私の心に衝突があります。

既知の機能 (ノードごとに 1 つ) に対して相対的にエントロピーを計算すると、未知の機能がすべての既知の機能に厳密に依存している場合にのみ、ツリーを使用した分類で意味のある結果が得られます。そうしないと、単一のバインドされていない既知の機能がすべての予測を破り、間違った方法で決定を下す可能性があります。しかし、分類時に予測したい特徴の値に対してエントロピーを計算すると、最初の無意味な例に戻ります。このように、ノードに使用する既知の機能に違いはありません...

ツリー構築プロセスについての質問です。

既知の機能についてのみエントロピーを計算し、すべての既知の機能が未知のものにバインドされていると信じるべきですか? または、未知の機能 (トレーニングデータで知られている) のエントロピーを計算して、どの機能が結果に影響を与えるかを判断する必要がありますか?

machine-learning artificial-intelligence decision-tree entropy data-science

2016-02-02T15:24:50.487

0 投票する

0 に答える

212 参照

java - weka & グラフトレーニング/テストエラーで、あるセットから別のセットに分類子を適用する方法

weka に関する 2 つの部分からなる質問。

1) セットで分類子をトレーニングしたら、その分類子を別のセットで使用するにはどうすればよいですか?

2) weka でエラー率/学習曲線をグラフ化するにはどうすればよいですか?

現在、私はエクスプローラーツール（GUI）を使用しています。データセットをトレーニングとテストの分割 (60/40) に分割しました。トレーニングセットで 10 倍の交差検証を実行し、これをテストセットに適用する必要があります。

ただし、新しく作成した分類子を 2 番目のセットに適用する方法も、トレーニング/テストエラーデータをグラフ化する場所もわかりません。

java machine-learning weka cross-validation data-science

2016-02-05T06:17:29.810

0 投票する

3 に答える

1367 参照

python - scipy と numpy で動作する clojure

scipy、numpy、scikit-learn などでデータサイエンスを行う手段として、clojure から python を呼び出す良い方法はありますか?

Java ではなく Python で実行される clojure の実装については知っていますが、プロジェクトで Java ライブラリも呼び出す必要があるため、これはうまくいきません。Jython についても知っていますが、Clojure でこれをきれいに使用する方法を知りません。

プロジェクトで Clojure を使用したいのは、言語として Clojure を好むからです。しかし、Python には信じられないほどのコミュニティがあり、最も美しく、よく設計されたライブラリがいくつかあることは否定できません。

python numpy clojure jython data-science

2016-02-08T19:29:51.567

0 投票する

0 に答える

502 参照

apache-spark - すべてのユーザーに同じ推奨アイテムを提供する Spark ALS-WR

さまざまな種類の商品 (動きの速い食料品から動きの少ない電化製品まで) を扱うスーパーマーケット向けのレコメンデーションシステムを構築しようとしています。より頻繁に大量に購入されるアイテムもあれば、一度しか購入されないアイテムもあります。

100 以上の部門の 30,000 以上の SKU にわたる 25,000 以上の顧客からの 4 か月間の購入履歴データがあります。推奨事項を生成するために、Spark で ALS-WR を実行しました。驚いたことに、お客様ごとに上位 15 の推奨事項が寄せられており、バリエーションはほとんどありません。

推奨事項を以下のように多様化するために、いくつかの手段を試しまし
た。パラメーターの組み合わせに従って使用されます - ラムダ = 0.01 から 300、アルファ = 5 から 50、ランク = 10、20、30 および反復回数 = 10、20 - 考慮される優先度は明示的です。

ALS はこのような異種データに使用できると思いますか? はいの場合、レコメンデーションを多様化し、パーソナライズするためにどのような変更を加えますか?

apache-spark machine-learning collaborative-filtering apache-spark-mllib data-science

2016-02-10T13:14:37.707

0 投票する

1 に答える

42 参照

r - RでPDFをダウンロードする際に必要な支援

以下のコードではhandle、PDF をダウンロードしようとするたびに、この部分でエラーが発生しているようです。

それらの PDF をダウンロードする方法についてのアイデアが尽きてしまいました。これが、すべてのPDFへのリンクを生成する方法です。

ps: PDF をダウンロードする他の方法を考えられる場合は、コードを共有してください。
一部の URL ではエラーが発生する可能性があることに注意してください。日と月が 10 未満の場合、先頭にゼロがない場合があるためです。

r pdf web-scraping web-crawler data-science

2016-02-18T15:57:08.230

問題タブ [data-science]

docker - Docker Kitematic を使用しているブラウザーで Ipython ノートブック インターフェイスが表示されない

machine-learning - 決定木のエントロピー計算対象

単機能

複数の機能

java - weka & グラフ トレーニング/テスト エラーで、あるセットから別のセットに分類子を適用する方法

python - scipy と numpy で動作する clojure

apache-spark - すべてのユーザーに同じ推奨アイテムを提供する Spark ALS-WR

r - RでPDFをダウンロードする際に必要な支援

Reference

docker - Docker Kitematic を使用しているブラウザーで Ipython ノートブックインターフェイスが表示されない

java - weka & グラフトレーニング/テストエラーで、あるセットから別のセットに分類子を適用する方法