“find-occurrences”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

93 参照

python - Python で 2 つのデータセットに出現する文字列の有意性のテストを行うことは可能ですか?

異なるソースからコンパイルされた 2 つのデータセットがあります。両方のデータセットには、出現頻度のある単語が含まれています。特定の単語が両方のデータセットに存在するかどうかを確認したいと思います。存在する場合、その単語が重要であることを証明するために統計的に有意性のテストを実行することは可能ですか。

'apple' という単語が両方のデータセット (dict1 と dict2) に含まれている場合、apple という単語の有意性検定を計算します。

2014-01-03T03:04:58.987

0 投票する

1 に答える

119 参照

max - PIG のタプルのリストで最大出現名を見つけるには

私は次のようなファイルを持っています：

最も多く登場する名前の答えが欲しい、つまり max (Scott,6)

max apache-pig find-occurrences

2014-01-19T20:01:14.503

0 投票する

1 に答える

63 参照

r - 条件に従って値の発生を取得する

この質問を投稿する前に、いくつかの質問で同様のものを検索しましたが、探しているものを見つけることができませんでした。この投稿が重複している場合は、お詫び申し上げます。適切な質問に転送していただければ幸いです。

次のデータがあります。

私は「単純に」最大値を持つ行の列名を取得しようとしています。私はこのタスクを

実際には、最大の条件に適合する 2 つの列 (c & d[6:10]) があるため、実際に取得したいのは次のようなものです。

したがって、 which.max の動作では最初の要素しか取得できない (少なくとも私にはそう思われる) ため、非常に複雑な解決策になる可能性があると考えました。各行の重複した要素を見つけて、これらのインデックスのいずれかが which.max を使用したコードのインデックスと一致する場合は、それを「double」に変更します。多かれ少なかれこのようなもの：

もう一度、ヒントをいただければ幸いです。

r max find-occurrences

2014-01-24T09:59:50.620

0 投票する

2 に答える

81 参照

sql - 文字列と整数を連結した結果である列の出現を数える方法

私のテーブルのデータは次のようになります。

1. 連結: AUDTORG と SEQUENCENO 2. 連結されたフィールド NewID の発生をカウントします。

これは私が探している結果です:

これが私が試したコードです：

すべての行が残っている必要があります。

sql sql-server count concatenation find-occurrences

2014-02-06T18:24:38.573

0 投票する

1 に答える

1230 参照

ruby - Rubyでテキストファイル内の単語の出現回数を数える方法

1）txtファイルを入力として取得する方法を知りたいです。2) 単語または単語が出現する回数を数えます! たとえば、テキストファイルで見つかった良い回数と悪い回数を数えて印刷したいとします。RUBYを使用してこれを行うにはどうすればよいですか?

ruby find-occurrences

2014-03-13T05:17:55.903

0 投票する

1 に答える

83 参照

performance - 要素の累積オカレンスの検索の高速化

コードのパフォーマンスを改善しようとしています。このコードは基本的に (1x2640) の値を計算し、L_total(1320x6) と呼ばれる別の変数からデータをフェッチすることによって計算しますL_CN。colindexesで見る行の値を格納するマトリックス (2640x3)もありますL_CN。

これがどうなるかというと、コードはを調べcolindexesて行データを取得します。Saycolindexesは次の形式です。

プログラムはをL_total(1)使用して計算しL_CN(55,1) + L_CN(65,1) + L_CN(75,1)ます。ここで、最初のインデックスは、colindexes行列から取得された行番号を参照します。2 番目のインデックスは、これまでにこれらの行番号が出現した回数を表します。したがって、を計算するL_total(2)ととなりますL_CN(68,1) + L_CN(75,2) + L_CN(85,1)。以前使っていL_CN(75,2)たのでこちらにしました。L_CN(75,1)

L_total行列全体を計算するには、次のコードが適切に機能します。list対応するインデックスを(2640x1)という変数にインクリメントすることで、各インデックスの出現回数を格納し、を計算しL_totalます。これは 0.023715 秒で行われます。n(以下は 2640であることに注意してください)

問題は、コードのこの部分を何度も、おそらく 100 万回も実行することです。それは大きなシミュレーションの一部です。したがって、パフォーマンスの向上のほんのわずかな部分でも、私が求めているものです。まず、for ループを取り除くことがこの目的に役立つと考え、コードを次のように切り替えました - このトピックから少し助けを得て:出現番号のベクトル:

このコードは、list_col(1x7920)、occurrence(1x7920)、list(2640x3)、およびstraight_index(2640x3) のジョブも実行します。しかし、私の予想に反して、0.062168 秒かかり、for ループの実装よりも約 3 倍遅くなりました。この操作の 0.05217 秒は、オカレンスマトリックスが形成される 2 行目の予定です。私のような配列サイズでは、このように出現を見つけるのは本当に非効率的です。

問題は、for ループの有無にかかわらず、このコードのパフォーマンスを向上させるにはどうすればよいかということです。発生行列をより速く計算する方法を見つけられれば、ベクトル化方法はいいようです。前述したように、コードのこの部分は何度も実行されるため、パフォーマンスの向上は何パーセントでも歓迎されます。

ありがとうございました！

詳細情報: colindexesサイズ 1320x2640 の大きな行列を表します。この行列全体を格納する代わりに、この行列の '1' の行の位置のみをに格納しcolindexesます。残りはゼロです。したがって、colindexes質問で指定したのは、1 列目の 55 行目と 2 列目の 85 行目に「1」があることを意味します... したがって、最小、最大範囲は 1,1320 です。各列には '1' が 3 つしかないため、そのサイズは 2640x3 です。もちろん、これはそれがどのように形成されるかについての背景情報です。それが役立つ場合、各値の出現回数colindexesも同じで、6 です。

したがって、行列のA = [1 0 0 1; 0 1 1 0]場合、colindexesはです[1; 2; 2; 1]。

performance matlab find-occurrences

2014-03-16T14:42:29.653

問題タブ [find-occurrences]

python - Python で 2 つのデータセットに出現する文字列の有意性のテストを行うことは可能ですか?

max - PIG のタプルのリストで最大出現名を見つけるには

r - 条件に従って値の発生を取得する

sql - 文字列と整数を連結した結果である列の出現を数える方法

ruby - Rubyでテキストファイル内の単語の出現回数を数える方法

performance - 要素の累積オカレンスの検索の高速化

Reference