問題タブ [data-partitioning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
4589 参照

r - セットのセットからすべての互いに素な (重複しない) セットを見つける

私の問題:セットのセットからすべてのばらばらの(重複しない)セットを見つける必要があります。

背景: 私は鳥類の形質進化を研究するために比較系統学的手法を使用しています。私は〜300種の木を持っています。このツリーは、サブクレード (サブツリー) に分割できます。2 つのサブクレードが種を共有しない場合、それらは独立しています。各サブクレードに10を超える分類群があり、すべてが独立している可能性のあるすべてのサブクレードパーティションを見つけるアルゴリズム(および可能であればR実装)を探しています。各サブクレードはセットと見なすことができ、2 つのサブクレードが独立している (種を共有していない) 場合、これらのサブクレードはばらばらのセットになります。

これが明確で、誰かが助けてくれることを願っています。

乾杯、 グレン

次のコードは、サンプル データセットを生成します。subclades は、セットの長さが Y である X 個の互いに素なセットをサンプリングしたいすべての可能なサブクレード (セット) のリストです。

0 投票する
1 に答える
95 参照

hadoop - Hadoop で同じサイズの複数の出力ファイルを生成する

レデューサーステップでこれらの範囲をパーティションとして使用できるように、Hadoop で X データ範囲を見つける方法は何ですか?

0 投票する
1 に答える
664 参照

sql - グループ化されたシリーズの各要素に増分番号を追加するにはどうすればよいですか?

Groupというテーブルとというテーブルがあるという問題に直面していますEntryGroupテーブルには主キーがありますIdEntryテーブルには主キー、テーブルの呼び出されIdたへの外部キーがあります。表にはもう 1 つの列があります。これは整数であり、一番上にゼロが表示されるソートの重みを教えてくれるだけです。GroupIdGroupIdEntryWeightWeight

基本的に何が起こったかというとWeight、データベースの設計時に誰かがこのフィールドを null 可能にしました。ここで、テーブルに追加する予定の制約Weightに合わせて調整する必要があります。これにより、基本的に同じグループにある場合に、2 つのエントリが同じ並べ替えの重みを持つことを防ぎます。UNIQUEUNQIUE(GroupId, Weight)EntryEntry

Weight既存のすべてのデータを調べて、グループごとに各エントリの列に 0 から N までの番号を付けることができるクエリはどれですか。N はEntry内のエントリの数です。Groupの に基づいて重みを設定し、特定のIdのの最小値が最小値になるEntryようにします。IdEntryGroupWeight

Groupテーブルを通過し、すべてのEntryエントリを結合してから、それらを反復処理してシーケンスを割り当てる1 つの大きな古いクエリが必要です。しかし、どこから始めればよいかわかりません。

0 投票する
1 に答える
79 参照

awk - 列によるデータの分割

私は 50 行と 150 万列の大きな行列を持っています。これらの 150 万列のうち、最初の 2 つは私のヘッダーです。

データを列ごとに細かく分割しようとしています。たとえば、各小さなセットは 50 行と 100 列になります。ただし、各小さなデータには、ヘッダーとして上記の最初の 2 つの列が必要です。

私は試した

また

しかし、上記のどれも機能していません。

これを行う効率的な方法はありますか?

0 投票する
1 に答える
327 参照

sql-server - キューブ プロセスの増分 1 つのパーティションと複数のパーティション

処理時間が長くなりすぎた大きな立方体があります。キューブのパーティション分割と処理オプションを変更したいと考えています。増分プロセスによって新しいレコードがキューブに取り込まれることを理解しています。私の質問は、パーティションを 1 つだけ持ってプロセス インクリメンタルを実行するのではなく、複数のパーティションを持ってプロセス インクリメンタルを実行する利点はありますか? 処理するたびに大量の新しいレコードが生成されるとは考えていません。