“summarization”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

1126 参照

text - テキスト要約データセット

テキストとテキストの要約を含むテキスト要約データセットを持っている人はいますか。

http://www.nist.gov/tac/data/past/2009/Summ09.htmlを見つけましたが、配布するには多くの事務処理と承認が必要です。

誰かがここで私を助けてくれませんか。

ありがとう。

2014-03-10T19:38:46.977

0 投票する

2 に答える

657 参照

Bill_Number、Item_Name、Quantity という変数を持つデータセットがあります。1 つの Bill_Number の下に複数の Item_Name を含めることができます。Bill_Number と Quantity で要約しようとしています。ここで、Item_Names は請求書番号ごとに 1 つの変数に連結されます。ここでの解決策：いくつかの行変数を組み合わせると、限定された事前定義されたフレーム（以下に示すように）でうまく機能しますが、何百ものItem_Namesがあります。これを行う簡単な方法があると確信しています。誰でも助けてもらえますか？

データ (サンプルのみ):

出力: 使用ply::ddply

これは、「製品 D」が別の行であることに依存しますが、特定の番号のすべての製品とその請求書番号の全体の数量の組み合わせが必要です。

必要な出力は次の形式です。

ビルN | アイテム名 | 量

B1 | 製品 A + 製品 B + 製品 C + 製品 D | 製品 4

B2 | 製品 A + 製品 B + 製品 C + 製品 D | 製品 4

B3 | 製品 A + 製品 B + 製品 C + 製品 D | 製品 4

上記のコードから得られる出力は次のとおりです。

ビルN | アイテム名 | 量

B1 | 製品 A + 製品 B + 製品 C | 4

B1 | 製品 D | 2

B2 | 製品 A + 製品 B + 製品 C | 4

B2 | 製品 D | 2

B3 | 製品 A + 製品 B + 製品 C | 4

B3 | 製品 D | 2

シナリオを拡張すると、各 Item_Name の Brand、Category、Sub_category などの変数と、それをさらに合計するための数値変数としての Sales_Amount があるとどうなりますか?

さらに詳しい情報が必要な場合や質問がある場合はお知らせください。

ありがとう、ラウル

r plyr summarization

2014-04-23T02:07:50.983

0 投票する

1 に答える

4321 参照

r - summary() の dplyr イディオムは、filtered-group-by であり、行が欠落しているために NA を置き換えます

dplyr::summarize販売データのデータフレーム全体を計算しています。group-by (S,D,Y) を実行し、各グループ内で 5..43 週の中央値と平均を計算し、それらを親 df にマージします。変数 X は売上です。X が NA になることはありません (つまり、df のどこにも明示的な NA はありません) が、その S、D、Y および週のセットにデータがない場合 (売上がない場合など)、それらの値を持つ行はありません。 dfで（その特定のパラメータセットの売上がゼロであることを意味すると考えてください）。言い換えれば、構造的に欠落している行に X=0 を代入します (ただしmelt/cast、肥大化を避けるために、元の dfが必要ないことを願っています。 cast(fill....,add.missing=T)orと同様caret::preProcess()です)。

私のコードイディオムに関する2つの質問:

dplyr::filterfilter は行を物理的に削除するため、結果を割り当ててからdf.tmp元の df に左結合する必要があるため (以下のように)、summaryよりも使用する方がよいでしょうか? また、要約計算のすべての行で繰り返される大きなサブセット式により、コードが読みにくくなります。n=20 の新しい集計変数を計算する一般的なケースでは、サブセット化操作の行または論理インデックスのキャッシュについて心配する必要がありますか (または心配しないでください)。
S、D、Y グループとフィルターのすべての組み合わせ (それらの週) に行があるわけではないため、欠落している行の NA を置き換えるために集計を取得するにはどうすればよいでしょうか? 現在、私は以下のようにしています。

コードとデータセットの両方がプロプライエタリで申し訳ありませんが、コードのイディオムは次のとおりです。以下は、サンプルデータを生成するために最初に実行する必要があるコードです。

これを最初に実行して、サンプルデータを生成します。

r idioms na dplyr summarization

2014-05-02T23:31:27.073

0 投票する

2 に答える

836 参照

r - ddply を使用して、さまざまな期間およびグループごとに変数を要約する

クライアントごとの売上レポートを要約し、さまざまな期間の総売上を取得しようとしています。

以下を使用してクライアントごとに要約できますddply。

2014 年 3 月 1 日の日付のみの売上を示す列を追加したいと考えています。

r plyr summarization

2014-06-10T15:39:52.543

0 投票する

0 に答える

50 参照

siblings - XML データを要約する

俳優名 (キーは映画) を含むすべての映画リストを取得する以下の形式の入力があり、俳優の観点からデータを要約する必要があります。

これを以下の方法でフォーマットする必要があります。

映画リストを続行する必要があるか、ブロックを閉じる必要があるかを判断するために、ループごとに現在の次の行を参照する必要がある場所で立ち往生しています。ここでのガイダンスは大歓迎です。

siblings summarization

2014-06-30T10:13:14.400

0 投票する

1 に答える

2793 参照

python - Python の ipv4 アドレスの非常に長いリストを要約する

可能な限り要約したいIPv4アドレス（〜18k）の非常に長いリストがあります：例

次のような結果になるはずです

速度が重要です。

助言がありますか？

python network-programming ip summarization

2014-07-08T07:30:36.340

問題タブ [summarization]

text - テキスト要約データセット

r - R の 1 つの変数にカテゴリ変数値を集約する

r - summary() の dplyr イディオムは、filtered-group-by であり、行が欠落しているために NA を置き換えます

r - ddply を使用して、さまざまな期間およびグループごとに変数を要約する

siblings - XML データを要約する

python - Python の ipv4 アドレスの非常に長いリストを要約する

問題タブ [summarization]

text - テキスト要約データセット

r - R の 1 つの変数にカテゴリ変数値を集約する

r - summary() の dplyr イディオムは、filtered-group-by であり、行が欠落しているために NA を置き換えます

r - ddply を使用して、さまざまな期間およびグループごとに変数を要約する

siblings - XML データを要約する

python - Python の ipv4 アドレスの非常に長いリストを要約する

Reference