ruby - より高速な CSV + ユニークなアイテムを見つけようとする

Question

列1が同じ値を持つ列2を超えた列のすべてのuniq値を見つけて、それを新しいcsvファイルに統合しようとしているcsvファイルがあります。わかりにくいと思いますので、以下に例を示します。

元のファイル foo.csv のサンプル:

"Boom Lifts","Model Number","Manufacturer","Platform Height","Horizontal Outreach","Lift Capacity"
"Boom Lifts","Model Number","Platform Height","Horizontal Outreach","Up & Over Height","Platform Capacity"
"Boom Lifts","Model Number","Platform Height","Horizontal Outreach","Up & Over Height"
"Pusharound Lifts","Model Number","Manufacturer","Platform Height","Stowed Height"
"Scissor Lifts","Model Number","Manufacturer","Platform Height","Stowed Height","Overall Dimensions","Platform Extension"
"Scissor Lifts","Overall Dimensions","Platform Size","Platform Extension","Lift Capacity"

理想的な結果 bar.csv:

"Boom Lifts","Model Number","Manufacturer","Platform Height","Horizontal Outreach","Lift Capacity","Up & Over Height","Platform Capacity",,,
"Pusharound Lifts","Model Number","Manufacturer","Platform Height","Stowed Height"
"Scissor Lifts","Model Number","Manufacturer","Platform Height","Stowed Height","Overall Dimensions","Platform Size","Platform Extension","Lift Capacity"

各行の長さはさまざまで、かなり巨大なファイル (5,000 行以上) です。一致/文字列操作を行う方法について頭を悩ませています。はい、これらの行の一部には、「空のセル」がある場所にコンマが続きます。私は Faster CSV を使用してきたので、それを使用してこれを行う方法があれば、それは素晴らしいことです。

ポインタ？できれば、私のmbpがきしむ音を立てないようにするものはありますか?

score 1 · Accepted Answer

Faster CSV を使用して 2 次元配列に入れることができると仮定します。

a = [
  ["Boom Lifts","Model Number","Manufacturer","Platform Height","Horizontal Outreach","Lift Capacity"]
  ["Boom Lifts","Model Number","Platform Height","Horizontal Outreach","Up & Over Height","Platform Capacity"]
  ["Boom Lifts","Model Number","Platform Height","Horizontal Outreach","Up & Over Height"]
  ["Pusharound Lifts","Model Number","Manufacturer","Platform Height","Stowed Height"]
  ["Scissor Lifts","Model Number","Manufacturer","Platform Height","Stowed Height","Overall Dimensions","Platform Extension"]
  ["Scissor Lifts","Overall Dimensions","Platform Size","Platform Extension","Lift Capacity"]
]

a.group_by {|e| e[0]}.map {|e| e.flatten.uniq}

あなたを取得します：

[
  ["Boom Lifts", "Model Number", "Manufacturer", "Platform Height", "Horizontal Outreach", "Lift Capacity", "Up & Over Height", "Platform Capacity"]
  ["Pusharound Lifts", "Model Number", "Manufacturer", "Platform Height", "Stowed Height"]
  ["Scissor Lifts", "Model Number", "Manufacturer", "Platform Height", "Stowed Height", "Overall Dimensions", "Platform Extension", "Platform Size", "Lift Capacity"]
]

瞬間的ではありませんが、MBP を低下させることはありません。

ruby - より高速な CSV + ユニークなアイテムを見つけようとする

1 に答える 1

Related

Reference