問題タブ [data-science]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - その関数を使用する代わりに R スクリプトでコーディングする方が良いですか?
ライブラリーのクランを使用するのではなく、r スクリプトでループ関数を使用する方がよいでしょうか? 同様に、正規化関数をコーディングできますが、これにはスケール関数を使用する必要がありますか?
私はデータサイエンスの初心者です。
python - python pandas を使用した大きな csv ファイルの要約統計
10 GB の csv ファイルがあり、DataFrame の記述メソッドを使用してファイルの要約統計を取得したいとします。
この場合、最初にすべての 10 GB csv データの DataFrame を作成する必要があります。
これは、すべての 10 GB がメモリに読み込まれ、統計が計算されるということですか?
python - 科学的な 3D プロットのための Mayavi の代替
次のような3D グリッドで構造化されたスカラー フィールドをプロットする必要があります。
この言語で多くのデータセットをシミュレートするため、Python でこれを行いたいと考えています。また、シミュレーション パラメーターで感度を実行するときに、それらをすばやく視覚化できるようにしたいと考えています。
Mayavi は、科学的な 3D プロットのためのかなり標準的なルーチンを提供しているようです。ただし、出版物でこれらのプロットを伝える場合、軸の目盛や補助目盛りなど、非常に基本的なプロットのカスタマイズは利用できません。また、サポートされているこれらの非常に基本的な機能は、今日まで正しく動作しません (たとえば、フォント サイズのバグとここの例を参照してください)。
Python で適切で使いやすい科学的3Dプロット ライブラリはありますか? 私は vtk を学習しようとしましたが、Web サイトの例は時代遅れのようです (例:ボリューム レンダリングの例が実行に失敗した、うまく動作するように多くのコード行を編集しようとしました)。
まともな科学プロット ライブラリとは、次のことを意味します。
- 軸、ラベル、タイトルなどのフォントをカスタマイズできます。
- 軸の目盛り間隔を編集できます (少なくとも主目盛りで)。
- カラーバーを追加できます
- ドキュメントあり。
python - データサイエンスのためのエリクサー
私は最近 Elixir を使い始めましたが、いくつかのパターンはデータ サイエンス プロジェクトで広く使用されている Python を思い出させます。たとえば、内包表記や無名関数をリストします。
Elixir の高いパフォーマンスと、複数のプロセスを実行し、非同期タスクを処理する機能を考慮すると、Elixir はデータ サイエンス プロジェクトに非常に適していると思います。
ポイントがありませんか?誰かがこれを経験していますか?
hadoop - Apache PIG の使用を開始するには、スクリプトに関するヘルプが必要です
昨日、仕事の機会のために Pig を使い始めました。これまで使用したことがなく、来週のために何かを作成する必要があります。私はまだそれをインストールすることができませんでしたが、それに取り組んでいます...
その間、Pig Latin の使い方を学ぼうとして何かを作成しましたが、テストできませんでした。
私が作業しているデータの形式は user_name|Country|movie|director で、ユーザーが映画を見るたびに新しいエントリがファイルに追加され、ファイルは 1 日を表します。
私がやりたいことは、ユーザーのトップ 5 の映画、トップ 5 の監督、およびユーザーが 1 日に見た映画の数を示す「ユーザー プロファイル」を作成することです。
私がコーディングしたもの:
私のコードに明らかな間違いはありますか? 私は良い方向に進んでいますか?このコードを python に埋め込もうとしています (python の部分を書きました)。
また、私のコードをテストする簡単な方法はありますか? (テスト用のtxtファイルをいくつか書きましたが、PCにhadoopとpigをインストールするのに苦労しています(Windows 7を使用しています)。
助けてくれてありがとう!
java - テキストの分類
指定された URL が何らかのイベントであるかどうかを判断しようとしています。イベントとは、、などのイベントを意味します。これは、私が持っている予備的なアルゴリズムです。conference
summit
convention
次の(最後を見て)トークンを見つけました。それらがページのコンテンツにある場合(サードパーティのライブラリを使用してHTMLからコンテンツを見つけます)、それをイベントとしてマークします。もちろん、これで終わりではありません。各トークンに重みを割り当てます。重みは、指定された URL がイベントであることをこのトークンがどれだけ強く伝えることができるかを示します。たとえば、コンテンツに見つかった場合、他の種類の記事でも頻繁に表示される可能性がconference
あるイベントと比較して、それがイベントであることをより確実に伝えることができます。registration
そこで、各記事のスコアを次のように計算します: (コンテンツ内のトークンの頻度 * その重み) の合計。そして、このスコアが次の場合> EVENT_THRESHOLD
、記事をイベントとしてマークします。このアプローチの問題点は次のとおりです。「イベント」が 20 回発生すると (信頼性が低い、つまり重みが低い)、スコアが跳ね上がりEVENT_THRESHOLD
、記事がイベントとしてマークされます。これを実装するより良い方法はありますか? 車輪の再発明ではないことを願っています。ありがとう。PS私はデータサイエンスの専門家ではありません:(
イベントのトークン: