“data-science”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

65 参照

r - その関数を使用する代わりに R スクリプトでコーディングする方が良いですか?

ライブラリーのクランを使用するのではなく、r スクリプトでループ関数を使用する方がよいでしょうか? 同様に、正規化関数をコーディングできますが、これにはスケール関数を使用する必要がありますか?

私はデータサイエンスの初心者です。

r data-science

2016-02-19T17:00:33.927

0 投票する

2 に答える

8471 参照

python - python pandas を使用した大きな csv ファイルの要約統計

10 GB の csv ファイルがあり、DataFrame の記述メソッドを使用してファイルの要約統計を取得したいとします。

この場合、最初にすべての 10 GB csv データの DataFrame を作成する必要があります。

これは、すべての 10 GB がメモリに読み込まれ、統計が計算されるということですか?

2016-02-23T06:35:29.917

0 投票する

1 に答える

3061 参照

python - 科学的な 3D プロットのための Mayavi の代替

次のような3D グリッドで構造化されたスカラーフィールドをプロットする必要があります。

この言語で多くのデータセットをシミュレートするため、Python でこれを行いたいと考えています。また、シミュレーションパラメーターで感度を実行するときに、それらをすばやく視覚化できるようにしたいと考えています。

Mayavi は、科学的な 3D プロットのためのかなり標準的なルーチンを提供しているようです。ただし、出版物でこれらのプロットを伝える場合、軸の目盛や補助目盛りなど、非常に基本的なプロットのカスタマイズは利用できません。また、サポートされているこれらの非常に基本的な機能は、今日まで正しく動作しません (たとえば、フォントサイズのバグとここの例を参照してください)。

Python で適切で使いやすい科学的3Dプロットライブラリはありますか? 私は vtk を学習しようとしましたが、Web サイトの例は時代遅れのようです (例:ボリュームレンダリングの例が実行に失敗した、うまく動作するように多くのコード行を編集しようとしました)。

まともな科学プロットライブラリとは、次のことを意味します。

軸、ラベル、タイトルなどのフォントをカスタマイズできます。
軸の目盛り間隔を編集できます (少なくとも主目盛りで)。
カラーバーを追加できます
ドキュメントあり。

python numpy data-science vtk mayavi

2016-02-29T21:24:28.593

0 投票する

2 に答える

3196 参照

python - データサイエンスのためのエリクサー

私は最近 Elixir を使い始めましたが、いくつかのパターンはデータサイエンスプロジェクトで広く使用されている Python を思い出させます。たとえば、内包表記や無名関数をリストします。

Elixir の高いパフォーマンスと、複数のプロセスを実行し、非同期タスクを処理する機能を考慮すると、Elixir はデータサイエンスプロジェクトに非常に適していると思います。

ポイントがありませんか？誰かがこれを経験していますか？

python elixir data-science

2016-03-01T14:25:52.840

0 投票する

2 に答える

45 参照

hadoop - Apache PIG の使用を開始するには、スクリプトに関するヘルプが必要です

昨日、仕事の機会のために Pig を使い始めました。これまで使用したことがなく、来週のために何かを作成する必要があります。私はまだそれをインストールすることができませんでしたが、それに取り組んでいます...

その間、Pig Latin の使い方を学ぼうとして何かを作成しましたが、テストできませんでした。

私が作業しているデータの形式は user_name|Country|movie|director で、ユーザーが映画を見るたびに新しいエントリがファイルに追加され、ファイルは 1 日を表します。

私がやりたいことは、ユーザーのトップ 5 の映画、トップ 5 の監督、およびユーザーが 1 日に見た映画の数を示す「ユーザープロファイル」を作成することです。

私がコーディングしたもの：

私のコードに明らかな間違いはありますか? 私は良い方向に進んでいますか？このコードを python に埋め込もうとしています (python の部分を書きました)。

また、私のコードをテストする簡単な方法はありますか? (テスト用のtxtファイルをいくつか書きましたが、PCにhadoopとpigをインストールするのに苦労しています(Windows 7を使用しています)。

助けてくれてありがとう！

hadoop apache-pig data-science

2016-03-03T17:13:38.747

0 投票する

1 に答える

49 参照

java - テキストの分類

指定された URL が何らかのイベントであるかどうかを判断しようとしています。イベントとは、、などのイベントを意味します。これは、私が持っている予備的なアルゴリズムです。conferencesummitconvention

次の（最後を見て）トークンを見つけました。それらがページのコンテンツにある場合（サードパーティのライブラリを使用してHTMLからコンテンツを見つけます）、それをイベントとしてマークします。もちろん、これで終わりではありません。各トークンに重みを割り当てます。重みは、指定された URL がイベントであることをこのトークンがどれだけ強く伝えることができるかを示します。たとえば、コンテンツに見つかった場合、他の種類の記事でも頻繁に表示される可能性がconferenceあるイベントと比較して、それがイベントであることをより確実に伝えることができます。registration

そこで、各記事のスコアを次のように計算します: (コンテンツ内のトークンの頻度 * その重み) の合計。そして、このスコアが次の場合> EVENT_THRESHOLD、記事をイベントとしてマークします。このアプローチの問題点は次のとおりです。「イベント」が 20 回発生すると (信頼性が低い、つまり重みが低い)、スコアが跳ね上がりEVENT_THRESHOLD、記事がイベントとしてマークされます。これを実装するより良い方法はありますか? 車輪の再発明ではないことを願っています。ありがとう。PS私はデータサイエンスの専門家ではありません:(

イベントのトークン:

java algorithm machine-learning data-science

2016-03-08T18:14:16.323

問題タブ [data-science]

r - その関数を使用する代わりに R スクリプトでコーディングする方が良いですか?

python - python pandas を使用した大きな csv ファイルの要約統計

python - 科学的な 3D プロットのための Mayavi の代替

python - データサイエンスのためのエリクサー

hadoop - Apache PIG の使用を開始するには、スクリプトに関するヘルプが必要です

java - テキストの分類

Reference