Kaggle の Titanic データセットで遊んでいます。空の列を持つ行を train.csv から削除したいと思います (これは欠落しているデータを処理する最善の方法ではないことはわかっていますが、この質問は私にとって興味深いものです)。
私はこの Unix タイプの方法 (awk、sed、grep などを使用) を使用したいと思っています。なぜなら、これらのツールをより良くしようとしているからですが、どこから始めればよいかさえわかりません。
データの例:
PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S
2行目のキャビンは空なので、ファイルから削除したいです。
4 番目の列にはコンマが含まれることがありますが、列は常に二重引用符で囲まれていることに注意してください。
余談:
特定の列に対してのみこれを行う方法も知りたいのですが、この質問への回答がその質問への回答に役立たない場合は、別の質問として尋ねることができます。