0 投票する

2 に答える

16961 参照

python - Python Pandas は pd.qcut で新しい Bin/Bucket 変数を作成します

Pythonでpd.qutを使用して新しいビン/バケット変数を作成するにはどうすればよいですか?

これは経験豊富なユーザーにとっては初歩的なことのように思えるかもしれませんが、私はこれについてあまり明確ではなく、スタックオーバーフロー/Google で検索するのは驚くほど直感的ではありませんでした。いくつかの徹底的な検索でこれが得られましたが（qcutを新しい列として割り当て）、最後のステップを実行せず、すべてをビン（つまり1、2、...）に入れなかったため、私の質問には完全には答えませんでした。

2015-02-10T22:20:23.780

0 投票する

1 に答える

299 参照

sorting - Hive - clustered by および sorted by ソートされていない結果を返す

次のように、バケットをクラスタ化して並べ替えたテーブルを作成しました。

データは次のように挿入されました。

クエリを実行すると:

ソートされていない結果が得られます。テーブルがソートされていないということですか？aこのテーブルを他のテーブルと結合する場合、このテーブルのソートマージ結合は機能しますbか?

BDW: old_table (含まれている distribute by および sort by への挿入) を次のように照会すると: ソートされたselect * from old_table limit 100;結果が得られます。

sorting hive clustered-index buckets

2015-02-25T11:33:43.603

0 投票する

1 に答える

138 参照

algorithm - バケットを使用した反転のカウント

配列内の反転をカウントしようとしています (a[i] > a[j] および i < j の場合、2 つの要素 a[i] および a[j] は反転を形成します)。O(n^2) でブルートフォースを使用し、O(nlgn) で Divide and Conquer を使用することで、これらの問題を簡単に解決できることを私は知っています。

私の質問は、データに関する知識で O(n) の効率を達成するために、バケット手法の形式を使用することは可能かということでした。たとえば、配列が 1-32 の順列であることはすでにわかっているため、最大要素は 32 です (バケット化で何かを行うことができます)。

私はこれについて考えていて、バケツに要素を挿入している場合、挿入時にそれよりも大きいすべてのバケツの合計がその反転カウントであることに気付きました。しかし、毎回各バケットに要素の数を追加すると、O(n) の効率が失われます。このペナルティを取り除くためにカウントを維持する方法についての提案。

順列は任意の長さにすることができますが、実行中に順列内の要素の数がわかっていることに注意してください。したがって、「n」の値は実行中に認識され、順列は「1」から「n」までの要素で構成されます。

並べ替え: 32 個のバケットを作成でき、各バケットには 1 つの要素があることがわかっているため、このデータセットを O(n) 時間の複雑さで並べ替えることができます。したがって、O(n + M) であるバケットソートの効率は、この特定の例では O(n + 1) = O(n) です。

algorithm buckets bucket-sort

2015-03-08T06:43:59.817

0 投票する

2 に答える

883 参照

c++11 - std::unordered_map バケット数をロックする

C++11 の std::unordered_map コンテナーでパフォーマンスベンチマークを実行しようとしています。

コンテナーの負荷率が挿入のパフォーマンスにどのように影響するかを確認したいと考えています。具体的には、膨大な数のセットでペアを見つけるための基本データ構造としてハッシュテーブルを使用することに興味があるためです。

ドキュメントを理解しているので、これは不可能のようです。でバケットの量を設定できますが、これはを超えるとrehash()自動的に行われます。max_load_factor

を設定することはできますmax_load_factorが、私が理解しているように、これは再ハッシュがいつ実行されるかを決定するだけであり、テーブルに大きな負担をかけることはできません。これは私がやりたいことです。

ハッシュテーブル内のバケットの量を厳密に制限する方法はありますか?

c++11 benchmarking unordered-map buckets

2015-03-27T08:23:39.490

0 投票する

0 に答える

147 参照

node.js - nodejsは画像をバケットにアップロードし、「共有公開」プロパティを付与します

画像のアップロードと共有に関連する質問があります。関連する質問と回答が見つかりましたが、現在は機能しています。Google クラウドはこのエラーで応答します

NodeJS gcloud - public-read プロパティ/custom cache-expire を使用して Google ストレージにアップロードする

理想的には、ファイルをアップロードしてから、パブリックドメインを介してアクセスしたいと考えています。APIを介してファイルを開くようなストリーミングソリューションは必要ありません。

ありがとう！

node.js google-cloud-storage buckets

2015-04-02T09:29:52.063

0 投票する

0 に答える

74 参照

python - パンダの2レベルバケット

私はパンダの初心者です。データフレームをバケット化するためのリストされたソリューションのいくつかを確認しましたが、どれも私の答えではないようです。リサンプリングを使用しない時系列データがあります。バケット化する方法は、データ全体を 7 つのグループに分割し、各グループを 10 の等しいバケットに分割することです。ここでインデックスを使用するのではなく、非常にまっすぐな方法があるに違いないと確信しています。

詳細

データフレーム

目盛りを 7 つにグループ化し、各ポイントを正確に 10 スポットバケットにし、他の列で集計関数をスポットバケットレベルまで使用できます。これは合計 7X10 レコードになります。

python pandas group-by buckets

2015-04-03T02:46:14.797

0 投票する

1 に答える

884 参照

hive - バケットが hadoop-hive で作成されていません

次のコマンドを使用して、ハイブにバケットを作成しようとしています:

コマンドは正常に実行されています: このテーブルにデータをロードすると、正常に実行され、使用時にすべてのデータが表示されselect * from empます。

ただし、HDFS では 1 つのテーブルのみが作成され、すべてのデータを含む 1 つのファイルのみが存在します。つまり、特定の国レコード用のフォルダーはありません。

hive buckets

2015-04-05T14:42:05.660

0 投票する

2 に答える

251 参照

hashmap - 別の Hashmap ではなく、HashMap のバケット実装として LinkedList を使用するのはなぜですか?

HashMaps のバケットが、別の Hashmap ではなく LinkedList を介して実装されるように選択された理由を知っている人はいますか? バケットが HashMaps 自体になった場合、contains または get は O(1) であり、償却された O(1) ではないようです。

hashmap buckets

2015-04-19T03:04:32.220

問題タブ [buckets]

詳細

データフレーム

Reference