そこで、Eudora から .mozeml ファイルを解析し、それらを mbox ファイルに変換しています (mbox は破損して削除されましたが、mozeml ファイルは残っていましたが、インポートできませんでした)。200,000 通を超える電子メールがあり、これを適切に処理するための適切な方法がわからない.
.mozeml ファイル (xml、utf-8 形式) を読み取り、データを解析してから、この形式で mbox ファイルを書き込む Java プログラムを作成することを考えていますhttp://en.wikipedia.org/wiki/ Mbox#ファミリー.
問題は、xml ファイルが To 行とメッセージを分離していないことです。1 つの文字列全体です。それを適切に処理する方法が完全にはわかりません。
たとえば、メッセージは次のようになります
"Joe 1" <joe1@gmail.com>joe2@gmail.comHello this is an e-mail...
また
"Joe 1" <joe1@gmail.com>"Joe 2" <joe2@gmail.com>Hello this is an e-mail...
.com/.net/com.hk/.co.jp/etc かどうかを確認するテストケースはたくさんあります。最初のもののために。2 つ目は、to 行の終わりが > であるため、少し簡単です。したがって、最初のケースについては確信が持てず、200,000 通のメールに対して正確であるかどうかはわかりません。