java - 可能な限り動的に (多くの異なる形式で) .csv ファイルから日付または DateTime 文字列を解析していますか?

Question

可能な限り動的/柔軟に.csvファイルから文字列データを解析できるようにするための助けが必要dd-MMM-yyyyですyyyy-MM-dd.日付、または日時の、例外をスローしたりクラッシュしたりすることなく解析できるはずです。dd-MMM-yyyy.csvファイルの日付/日時フィールドの現在の形式は、30-Apr-2020. もちろん、時間を追加することができ、オプションです (パターンで見られるように、[ ] ブラケット表記を使用しているため、それはになります30-Apr-2020 23:59:59)。私はすでに日付/日時列の解析を次のように設定しています:

DateTimeFormatter dtf = new DateTimeFormatterBuilder()
             .appendPattern("dd-MMM-yyyy[[ ]['T']HH:mm:ss]")
             .optionalStart()
             .appendFraction(ChronoField.MICRO_OF_SECOND, 1, 6, true)
             .optionalEnd()
             .toFormatter();

 TemporalAccessor temporalAccessor = dtf.parseBest(dateString, LocalDateTime::from, LocalDate::from);
                if (temporalAccessor instanceof LocalDateTime) {
                    // process here
                } else if (temporalAccessor instanceof LocalDate) {
                    // process here
                }

したがって、基本的にパターンを柔軟に設定することによって、つまり"dd-MMM-yyyy[[ ]['T']HH:mm:ss]"、TemporalAccessor を使用してそれが日付か日時かを確認し、必要に応じてさらに処理を行います。さまざまな種類の入力を処理でき、アプリがここで例外をスローして失敗することはありません。だから私は消費することができます：

01-Sep-2020 // just date
01-Sep-2099 18:59:59 // datetime
01-Apr-2033 18:59:59.123 // datetime with ms
01-Aug-2057 23:59:59.123456 // date time up to 6 ms decimal pts

ただし、ユーザー .csv に2020-05-30日付のようなものが含まれている場合、これはISO形式の標準であると思われますが、失敗します。また、私が今気付いた悪い点は.parseBest()、月の大文字と小文字が区別されるためにメソッドも失敗することです。つまり、このようなものは01-MAY-1999 失敗しますが、01-May-1999合格します。

解析に失敗することなく、さまざまな種類のフォーマットを処理するにはどうすればよいですか? 私が言ったように、私は実際に .csv ファイル (つまりデータエンジニア) を生成しないので、このアプリを可能な限り堅牢/柔軟にし、このデータを解析/正しくフォーマットして、データを消費できるようにしたいと考えています。それに応じてデータベースに書き込まれます。ここでの私のアプローチはまともだと思ったので、大規模な書き直しが必要ないことを望んでいました.

score 2 · Accepted Answer

DateTimeFormatterBuilder#parseDefaulting以下の例に示すように、オプションのフィールドをデフォルトにするために使用できます。

import java.time.LocalDateTime;
import java.time.format.DateTimeFormatter;
import java.time.format.DateTimeFormatterBuilder;
import java.time.temporal.ChronoField;
import java.util.Locale;

public class Main {
    public static void main(String[] args) {
        DateTimeFormatter dtfInput = new DateTimeFormatterBuilder()
                                .parseCaseInsensitive()// For case-insensitive parsing
                                .appendPattern("[d-M-uuuu[ H[:m[:s]]]]")
                                .appendPattern("[uuuu-M-d[ H[:m[:s]]]]")
                                .appendPattern("[uuuu/M/d[ H[:m[:s]]]]")
                                .appendPattern("[d/M/uuuu[ H[:m[:s]]]]")
                                .appendPattern("[d-MMM-uuuu[ H[:m[:s[.SSSSSS]]]]]")
                                .parseDefaulting(ChronoField.HOUR_OF_DAY, 0)
                                .parseDefaulting(ChronoField.MINUTE_OF_HOUR, 0)
                                .parseDefaulting(ChronoField.SECOND_OF_MINUTE, 0)
                                .parseDefaulting(ChronoField.NANO_OF_SECOND, 0)
                                .toFormatter(Locale.ENGLISH);

        String[] arr = { 
                                "10-5-2020", 
                                "2020-5-10", 
                                "10/5/2020", 
                                "2020/5/10", 
                                "10-5-2020 10:20:30", 
                                "10-5-2020 10",
                                "10-5-2020 10:20", 
                                "10/5/2020 10:20", 
                                "01-May-1999", 
                                "01-MAY-1999", 
                                "01-Aug-2057 23:59:59.123456"
                        };

        for (String dt : arr) {
            System.out.println(LocalDateTime.parse(dt, dtfInput));
        }
    }
}

出力：

2020-05-10T00:00
2020-05-10T00:00
2020-05-10T00:00
2020-05-10T00:00
2020-05-10T10:20:30
2020-05-10T10:00
2020-05-10T10:20
2020-05-10T10:20
1999-05-01T00:00
1999-05-01T00:00
2057-08-01T23:59:59.123456

java - 可能な限り動的に (多くの異なる形式で) .csv ファイルから日付または DateTime 文字列を解析していますか?

1 に答える 1

Related

Reference