“sequencing”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1198 参照

c# - 道路に沿って動的に GPS ポイントをシーケンスする

GPS ポイントをインデックスと共に保存しています。この質問でこれらのポイントを参照するには、GPS[0]、GPS[1] のようになります。ここで、GPS は GPS の位置、[n] はインデックスです。 GPS 位置の配列。

場所を保存する方法は次のとおりです (この例では、配列には 11 の場所しか含まれていません)。

GPS[0] = 道路の始点 - 常に最初のインデックス

GPS[10] = 道路の終わり - 常に最後のインデックス

GPS[ 1 - 9 ] = 道路の始点と終点の間のポイント

注: [1 - 9] ポイントのすべてが同時にキャプチャされるわけではありません。たとえば、GPS[1] と GPS[2] は月曜日にキャプチャされ、GPS[3] は水曜日と GPS[4 - 9] にキャプチャされる場合があります1 か月後にキャプチャされる可能性があります。それらがキャプチャされない場合...それらは無視されます。

さらに、GPS 位置が「順不同」にキャプチャされる場合があります...「順不同」とは、ポイントが道路に沿ってキャプチャされることを意味しますが、必ずしも旅行中に遭遇する順序と同じであるとは限りません。最初から最後まで道を下ります。

これは私のアルゴリズムの質問に私を導きます:

(「MAP API」は、マッピング API を持つ任意のソフトウェア/サービスであることに注意してください)

MAP API 機能を扱う C# サンプルコードを探しています。

別のメモ...これには、ユーザーインターフェイスの表示は必要ありません...

緯度/経度を使用できます...ただし、使用する GPS 座標はそれほど重要ではありません...重要なのは、道路を移動して、ポイントが現在のポイントに近いかどうかを判断できる MAP API 機能です。 .

ありがとう

c#map gps sequencing

2014-05-16T14:15:20.350

0 投票する

2 に答える

903 参照

regex - 非常に大きなファイル間の grep パターンマッチが遅すぎる

私はこれにあまりにも多くの時間を費やしてきたので、提案を探しています。ファイルが大きすぎます (興味のある方は、イルミナシーケンスランからの FASTQ ファイルを参照してください)。私がする必要があるのは、両方のファイル間で共通のパターンを一致させ、その行とその下の 3 行を複製せずに (元のファイルに存在する) 2 つの別個のファイルに出力することです。grep はこれを問題なく実行しますが、ファイルは最大 18 GB であり、それらの間のマッチングは途方もなく遅くなります。私がする必要があることの例を以下に示します。

ファイル A:

で始まる 3 つの一意のヘッダーと、それに@続く 3 つの追加行が表示されます。

ファイル B:

ここには 4 つのヘッダーがありますが、そのうちの 1 つが 3 回繰り返されるため、固有のものは 2 つだけです。

重複のない 2 つのファイル間の共通ヘッダーと、その下の 3 行が必要です。各ファイルで同じ順序で。

これが私がこれまでに持っているものです：

組み合わせた

これは、重複のない 2 つのファイル間の共通ヘッダーのみです。これが私が欲しいものです。ここで、これらのヘッダーを元のファイルと一致させ、その下の 3 行を 1 回だけ取得する必要があります。

grep を使用すると、各ファイルに必要なものを取得できます

FileA.Final

while ループを繰り返してFileB.Finalを生成します。

これは機能しますが、FileA と FileB は ~18GB で、結合したファイルは ~2GB 前後です。最後のステップを劇的にスピードアップする方法について誰か提案がありますか?

regex linux grep large-files sequencing

2014-05-21T03:53:31.110

0 投票する

2 に答える

86 参照

linux - 順序付けられたイベントリストでの類似シーケンスの検出

私はたくさんの (何百万もの) 小さな実験からのログを持っています。

各ログには、エントリのリスト (数十から数百) が含まれています。各エントリは、タイムスタンプとイベント ID です (数千のイベント ID があり、それぞれがログで何度も発生する可能性があります)。

あるイベントが後で別のイベントを引き起こす可能性があることを知っています。

私はこのデータセットを研究しています。実験で十分頻繁に発生する「安定した」一連のイベントを探しています。

あまり多くのコードを記述せず、独自のソフトウェアを使用せずにこれを行う方法はありますか? ソリューションは十分にスケーラブルで、大規模なデータセットで機能する必要があります。

この作業は、バイオインフォマティクスが行うこと、つまり DNA の配列を見つけることなどに似ていると思います。私のタスクだけがアルファベットに4文字以上含まれています...（@JayInNycのおかげで更新：プロテオミクスは私のものよりも大きなアルファベットを扱っています。）

（ところで、シーケンスがどれだけ安定して類似しているか、シーケンスの最小長などは事前にわからないことに注意してください。データセットを調査しているため、外出先でこれを把握する必要があります。）

とにかく、使用できるアプローチ/ツール/ライブラリに関する提案はありますか?

更新: コメントの質問に対するいくつかの回答:

安定したシーケンス:実験全体で十分な頻度で見つかりました。（どれくらいの頻度で十分ですか？まだわかりません。チェーンのトップを計算し、最もレアなものを捨てる必要があるようです。）

類似シーケンス: 似ているシーケンス。「シーケンス 'ABCD E' と 'ABCE D' (シーケンスのわずかな違い) は似ていますか?あなたへ？" — どちらの質問にもはい。より抜本的な変異もおそらく問題ありません。繰り返しますが、トップを計算して、最も似ていないものを破棄できるようにしたいと思います...

タイミング:現時点ではタイミング情報を破棄できます (ただし、注文はできません)。しかし、それを類似性指数の公式に入れたらクールだろう。

更新 2: 期待される出力。

最後に、最も人気のある最長の安定したチェーンの評価をしたいと思います。3 つの要素すべての組み合わせが、評価スコアの計算に影響を与えるはずです。

そのような評価のチェーンは、明らかに、かなり類似したチェーンのクラスターです。

チェーンクラスターの合成例:

別：

（または、今のところ思い浮かばなかったバリアントは何でも。）

したがって、最終的な出力は次のようになります (この例では数字は完全にランダムです)。

linux data-analysis sequencing

2014-06-28T16:48:42.710

0 投票する

0 に答える

84 参照

linux - ビッグデータで最も長い共通シーケンスを見つける

私はたくさんの (何百万もの) 小さな実験からのログを持っています。

各ログには、エントリのリスト (数十から数百) が含まれています。各エントリは、タイムスタンプとイベント ID です (数千の一意のイベント ID があり、それぞれがログに数回発生する場合があります)。1 つの実験のログの例を次に示します。

多くの実験に共通するシーケンスを見つける必要があります。

シーケンスは、互いに続く複数 (少なくとも 2 つ) のイベント ID です。

共通シーケンスは、少なくとも 2 つのログで見つけることができるシーケンスです。ログ

と

共通のシーケンスがあります:

(明らかに、ここで最も長い一般的なシーケンスを探しています。)

頻繁に発生する大きなシーケンスに興味があります。カットオフ値は事前にわかりません。たとえば、出現頻度の上位 1000 (または上位 30%) のうち、長さの上位 10 (または上位 100 シーケンス) が必要です。(この基準はランダムに与えられ、データ処理を容易にするためにほぼ任意に変更できます。)

スケーラブルな方法でこれを行う方法に関するアドバイスはありますか?

所有するコードの量を最小限に抑えたいと考えていますが、独自のプログラムを使用してソリューションを取得したくはありません。

…バイオインフォマティクスでも、やや似たような問題が解決されていると思います。~~しかし、彼らは私よりずっと短いアルファベットを持っています :-)~~違います! プロテオミクスは、はるかに大きなアルファベットを扱います! (@JayInNyc に感謝)

linux bigdata data-analysis sequencing

2014-07-01T13:19:43.790

0 投票する

3 に答える

1191 参照

copy - ソースツリーからビルドツリーにファイルを waf コピーする

ファイルをそのままビルドディレクトリにコピーするための次のスニペットがあります。

このルールは (印刷物から) ヒットしましたが、コピーは行われていないようです! また、waf book のセクション5.3.3make_nodeの例に示されているように、ソースを使用するように変更しましたが、まだ運がありません! ここで明らかな何かが欠けていますか!?

また、この後、コピーされたファイルに依存するいくつかのルールがあり、介在を追加しようとしました

このコピーが成功すれば、シーケンスが機能することを願っています

copy waf sequencing

2014-08-20T18:05:50.390

0 投票する

1 に答える

617 参照

r - 次世代シーケンシング vcf ファイルに R を使用する

R初心者です。R を使用して大規模な次世代シーケンシング vcf ファイルを分析していますが、問題が発生しています。非常に大きな vcf ファイルをデータフレーム (177 変数の 2446824 観測値) としてインポートし、関心のある 3 つのサンプル (29 変数の 2446824 観測値) だけでサブセットを作成しました。

ここで、次元をさらに減らしたいと考えています (行を約 200000 に減らします)。grep を使用しようとしていますが、動作させることができません。私が得るエラーは

これは、私が作業しているファイルの小さな例です。

このデータセットの行を減らす方法は 2 つあります。

コード 1. $Run.Sample1 または $Run.Sample2 または $Run.Sample3 のいずれかに「0/1」または「1/0」または「1/1」が含まれている場合、行全体を保持します。

コード 2. $Run.Sample1 または $Run.Sample2 に「0/1」または「1/0」または「1/1」が含まれ、$Run.Sample3 に「0/0」が含まれる場合、行全体を保持します。

コード 1 から取得したい結果は次のとおりです。

コード 2 から取得したい結果は次のとおりです。

助けてくれて本当にありがとうございます

ケリー

r regex bioinformatics sequencing vcf-variant-call-format

2014-09-01T05:30:01.193

問題タブ [sequencing]

c# - 道路に沿って動的に GPS ポイントをシーケンスする

regex - 非常に大きなファイル間の grep パターン マッチが遅すぎる

linux - 順序付けられたイベント リストでの類似シーケンスの検出

linux - ビッグデータで最も長い共通シーケンスを見つける

copy - ソース ツリーからビルド ツリーにファイルを waf コピーする

r - 次世代シーケンシング vcf ファイルに R を使用する

Reference

regex - 非常に大きなファイル間の grep パターンマッチが遅すぎる

linux - 順序付けられたイベントリストでの類似シーケンスの検出

copy - ソースツリーからビルドツリーにファイルを waf コピーする