750 K 以上の raw を持つ入力テーブルがあります。四半期と呼ばれるフィールドがあります。各四半期から 10% のレコードを取得するようなサンプルを作成したいと考えています。data.frame の主な属性は次のとおりです。
- 「SERIAL_NBR」
- "モデル番号"
- 「戦争.開始.月刊」
「Start.Qua.Yr」は、四半期が記載されるフィールドです。各四半期のデータ (レコードの 10%) を持つサンプル データを生成する方法はありますか?
サンプル関数を使用すると、四半期に関係なくサンプルを取得できます。同じコードは次のようになります。
raw_claim_input[sample(1:nrow(raw_claim_input),as.integer(nrow(raw_claim_input)/10)),]
ある四半期についてフォローしているときに、値を考慮する際に論理的な問題があるため、期待した結果が得られません
raw_claim_input[sample(1:nrow(raw_claim_input[raw_claim_input$War.Start.Monthly=="08-M2",]),as.integer(nrow(raw_claim_input[raw_claim_input$War.Start.Monthly=="08-M2",])/10)),]
値 08-M2 はフィルターです。利用可能なすべての値に対して実行したいと思います。War.Start.Monthly には 70 個の値があり、War.Start.Monthly の値ごとにサンプルを生成したいと考えています。
データの一部
Day.Covered SHIP_DATE Warranty.Start.Qua.Yr War.Start.Monthly AssemblyDateUpdated Warranty.End.Date Warranty.End.Qur.Yr War.End.Monthly
252754 365 06-04-2008 00:00 08-Q2 08-M6 06-03-2008 00:00 08-04-2064 64-Q2 64-M4
441605 1095 08-17-2010 11:13:07 10-Q3 10-M8 08-16-2010 12:09:57 08-04-2064 64-Q2 64-M4
583636 731 10-17-2012 00:00:00 12-Q4 12-M10 10-16-2012 00:00:00 08-04-2064 64-Q2 64-M4
115586 731 01-04-2013 00:00 13-Q1 13-M1 01-03-2013 00:00 08-04-2064 64-Q2 64-M4
334221 1095 06-13-2011 12:29:23 11-Q2 11-M6 06-11-2011 11:25 08-04-2064 64-Q2 64-M4
146656 1095 03-16-2011 10:54:37 11-Q1 11-M3 03-15-2011 08:14:40 08-04-2064 64-Q2 64-M4
249956 1095 06-18-2008 12:35:06 08-Q2 08-M6 06-06-2008 10:51 08-04-2064 64-Q2 64-M4
276295 731 05-18-2011 00:00:00 11-Q2 11-M5 05-18-2011 00:00:00 19-11-2014 14-Q4 14-M11
582423 731 10-22-2012 00:00:00 12-Q4 12-M10 10-22-2012 00:00:00 08-04-2064 64-Q2 64-M4
380369 730 08-04-2009 17:43 09-Q3 09-M7 07-31-2009 07:14:17 18-01-2012 12-Q1 12-M1
詳細が必要な場合はお知らせください。