問題タブ [data-science]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
519 参照

python - Python: 2D リストから頻度表を作成する

次のようにフォーマットされたデータから始めます。

すべての値をその頻度で一度表現したいと思います。

1D リストに関するこの問題に対する多くの解決策を見つけましたが、それらは 2D では機能しないようです。

0 投票する
0 に答える
79 参照

python - Pythonでkmeansのkを見つける

したがって、(x,y) 形式の 130000 ポイントからなるデータセットがあります。私の最終的な目標は、kmeans を使用してこのデータをクラスター化することです。しかし、それを適用するには、kmeans アルゴリズムに渡す最適なクラスター数を見つける必要があります。これを達成するには、PythonでGap StatisticsやLeveneのテストなどをどのように適用すればよいですか?

0 投票する
1 に答える
1367 参照

python - Python のテキスト コンテンツ アナライザー

ファイルからの入力と出力を分析するテキストコンテンツアナライザーをPythonで作成しました

  1. 総単語数
  2. ユニークワード数
  3. 文章数

コードは次のとおりです。

現在、単語単位で平均文長を計算し、よく使われる語句(3回以上使われている3語以上の語句)を見つけ、使用頻度の高い順に単語のリストを作成しようとしています。誰でも助けてもらえますか?

0 投票する
2 に答える
1791 参照

python - Pandas Dataframe をループしてダミー変数を作成する効率的な方法 (1 または 0 入力)

私はデータ サイエンスを学んでおり、データセットのダミー変数を作成したいと考えています。

["Category1", "Category2".."CategoryN"] のような一致するカテゴリのリストである「製品カテゴリ」列を持つデータフレームがあります。

Pandas にはダミー変数を自動的に作成する便利な機能 (pandas.get_dummies) があることは知っていますが、この場合は使用できないのではないでしょうか (?)。

各行をループして、各列の一致する要素に 1 を追加する方法を知っています。私の現在のコードはこれです:

ただし、上記のコードは効率的ではなく、100,000 行を超えるため使用できません。どういうわけか配列全体で操作を行いたいのですが、その方法がわかりません。

誰か助けてくれませんか?

0 投票する
1 に答える
1078 参照

hadoop - Cloudera マネージャーを開けません

私はビッグ データと Hadoop の初心者です。hello world コンテンツを含む test というファイルを作成しました。これを試してみると、ファイル ブラウザーにアップロードしたいと思っていました。エラーが発生しました。この Web サイトで回答を検索して解決しようとしました。問題はクラスター「cloudera manager」にあることがわかりました。これを開こうとすると、10 RAM を使用することを強く推奨するメッセージが表示されますが、強制的に開きたい場合はコマンド「force」を使用してください。システムをダウンロードすることをお勧めしました 8 グラムの RAM バス 私は仮想マシンに 5.5 グラムの RAM を与えました。システムを柔軟に使用できるので、何が問題なのか、どうすれば Cloudera Manager を強制的に起動できますか?

0 投票する
2 に答える
13214 参照

python - TensorFlow の MNIST の例で予測されたクラス ラベルを取得する方法は?

私はニューラル ネットワークが初めてで、初心者向けの MNIST の例を試しました。

現在、テスト ラベルを持たない Kaggle の別のデータセットでこの例を使用しようとしています。

対応するラベルのないテスト データ セットでモデルを実行すると、MNIST の例のように精度を計算できないため、予測を確認できるようにしたいと考えています。何らかの方法で観測とその予測ラベルにアクセスし、それらをうまく印刷することは可能ですか?

0 投票する
0 に答える
218 参照

r - 言語Rでコサイン類似度を計算する関数を構築するにはどうすればよいですか?

以下は私のコードです。2つのベクトルを比較することができたので、関数を構築したいと思います

上記のような 266 行 7 列のマトリックスがあります。最初の列は製品の ID で、他の列は製品の決定的なタグです。独自の関数を持ち、2 つの入力を与えたい場合は、決定的なタグ ベクトル (c("HDa","2Pb","2","BxU","BuQ","Bve") など) とother は製品 ID (ios) です。その結果、製品 ID のベクトルに最も類似した上位 8 製品の中で true または false (1 または 0) を確認したいと考えています。

私の問題を解決するために何をすべきかについて、誰かが私に手がかりを与えることができますか?

0 投票する
0 に答える
502 参照

hadoop - Cloudera の Hue でファイル ブラウザにファイルをアップロードできない

私は Big data と hadoop の初心者です。hello world コンテンツを含む test というファイルを作成しました。ファイル ブラウザにアップロードしようとすると、「データ ノードが見つかりませんでした。クラスターの状態を確認してください」というエラーが表示されます。試してみましたこのWebサイトで回答を検索して解決するには、クラスター「cloudera manger」に問題があることがわかりました。開こうとすると、10個のRAMを使用することを強くお勧めしますが、強制的に使用したい場合コマンドフォース "私のPCは6グラムのRAMで、システムをダウンロードするときに8グラムのRAMバスが推奨されました。仮想マシンに5,5グラムのRAMを与えます。システムを使用する際に柔軟に対応できるので、何が問題で、どうすればよいですかCloudera マネージャーを強制起動しますか?これはスクリーン ショットです

0 投票する
1 に答える
220 参照

machine-learning - TensorFlow で線形データを表現する方法

TensorFlow でオシロスコープのようなデータをモデル化しようとしています - 持続時間、強度などを持つエネルギー パルスの線形ストリーム - しかし、それ以外は非常によく似た分類タスクを実行しており、それを表現する最善の方法を見つけるのに苦労しています。 TensorFlow で。

チュートリアルは画像分類を目的としており、フレームワークは 4 次元テンソルを中心に構築されているようです。比較的単純なデータを表現する方法がわかりません。

具体的には、次のことを理解しようとしています。

1) 4 トラックの情報を含む 100 パルスのストリングがある場合、それは 4x100 画像または 100x4 画像に相当しますか? それとも、4 つの「チャンネル」を持つ 100x1 の画像ですか? テンソルがどのように折りたたまれているか/展開されているかは不明です。

2) max-pooling はどのようにこの低次元空間に変換されますか? 同様に、チャネルやその他の無意味なパターン内だけでなく、パルス全体でプールしていることを確認するにはどうすればよいですか? 「ストライド」がどのように計算され、使用されるかについては、十分に説明されていません。

TensorFlow で同様のデータをモデル化しようとした人はいますか?