CSV ファイルを Weka にインポートしようとしていますが、文字列を衛生的に処理する Weka の明らかに非常に貧弱な機能に問題がありました。
すでに sed を使用してすべての非 ASCII 文字を削除していますが、バックスラッシュを処理する際に問題が発生しました。私が持っている入力には、一部のフィールドにエスケープされたバックスラッシュが含まれており、他のフィールドにはエスケープされていないバックスラッシュ (Weka が正しく処理できない) が含まれています。
必要なのは、バックスラッシュが前後にないバックスラッシュを見つけて、2 つ目のバックスラッシュを追加する正規表現です。私は構文を機能させるのに本当に苦労しており、誰かが私を助けてくれるかどうか疑問に思っていました.