問題タブ [data-partitioning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - セットのセットからすべての互いに素な (重複しない) セットを見つける
私の問題:セットのセットからすべてのばらばらの(重複しない)セットを見つける必要があります。
背景: 私は鳥類の形質進化を研究するために比較系統学的手法を使用しています。私は〜300種の木を持っています。このツリーは、サブクレード (サブツリー) に分割できます。2 つのサブクレードが種を共有しない場合、それらは独立しています。各サブクレードに10を超える分類群があり、すべてが独立している可能性のあるすべてのサブクレードパーティションを見つけるアルゴリズム(および可能であればR実装)を探しています。各サブクレードはセットと見なすことができ、2 つのサブクレードが独立している (種を共有していない) 場合、これらのサブクレードはばらばらのセットになります。
これが明確で、誰かが助けてくれることを願っています。
乾杯、 グレン
次のコードは、サンプル データセットを生成します。subclades は、セットの長さが Y である X 個の互いに素なセットをサンプリングしたいすべての可能なサブクレード (セット) のリストです。
hadoop - Hadoop で同じサイズの複数の出力ファイルを生成する
レデューサーステップでこれらの範囲をパーティションとして使用できるように、Hadoop で X データ範囲を見つける方法は何ですか?
sql - グループ化されたシリーズの各要素に増分番号を追加するにはどうすればよいですか?
Group
というテーブルとというテーブルがあるという問題に直面していますEntry
。Group
テーブルには主キーがありますId
。Entry
テーブルには主キー、テーブルの呼び出されId
たへの外部キーがあります。表にはもう 1 つの列があります。これは整数であり、一番上にゼロが表示されるソートの重みを教えてくれるだけです。Group
Id
GroupId
Entry
Weight
Weight
基本的に何が起こったかというとWeight
、データベースの設計時に誰かがこのフィールドを null 可能にしました。ここで、テーブルに追加する予定の制約Weight
に合わせて調整する必要があります。これにより、基本的に同じグループにある場合に、2 つのエントリが同じ並べ替えの重みを持つことを防ぎます。UNIQUE
UNQIUE(GroupId, Weight)
Entry
Entry
Weight
既存のすべてのデータを調べて、グループごとに各エントリの列に 0 から N までの番号を付けることができるクエリはどれですか。N はEntry
内のエントリの数です。Group
の に基づいて重みを設定し、特定のId
のの最小値が最小値になるEntry
ようにします。Id
Entry
Group
Weight
Group
テーブルを通過し、すべてのEntry
エントリを結合してから、それらを反復処理してシーケンスを割り当てる1 つの大きな古いクエリが必要です。しかし、どこから始めればよいかわかりません。
awk - 列によるデータの分割
私は 50 行と 150 万列の大きな行列を持っています。これらの 150 万列のうち、最初の 2 つは私のヘッダーです。
データを列ごとに細かく分割しようとしています。たとえば、各小さなセットは 50 行と 100 列になります。ただし、各小さなデータには、ヘッダーとして上記の最初の 2 つの列が必要です。
私は試した
また
しかし、上記のどれも機能していません。
これを行う効率的な方法はありますか?
sql-server - キューブ プロセスの増分 1 つのパーティションと複数のパーティション
処理時間が長くなりすぎた大きな立方体があります。キューブのパーティション分割と処理オプションを変更したいと考えています。増分プロセスによって新しいレコードがキューブに取り込まれることを理解しています。私の質問は、パーティションを 1 つだけ持ってプロセス インクリメンタルを実行するのではなく、複数のパーティションを持ってプロセス インクリメンタルを実行する利点はありますか? 処理するたびに大量の新しいレコードが生成されるとは考えていません。