12

Outlook の電子メール アカウントから大量のデータ ダンプがあり、完全に .msg ファイルになっています。ubuntu の file メソッドをすばやく呼び出すと、それらが Composite Document File V2 Documents (それが何を意味するかに関係なく) であることが明らかになりました。これらのファイルをプレーンテキストとして読み取れるようにしたいと思っています。それはまったく可能ですか?

更新: これらの種類のファイルで大規模なデータ マイニングを行うために私が望んでいたことを完全に実行することはできず、残念でした。同じ問題に直面した場合に備えて、この問題に対処するためのライブラリを作成しました。https://github.com/Slater-Victoroff/msgReader

ドキュメンテーションは素晴らしいものではありませんが、かなり小さなライブラリなので、一目瞭然です。

4

1 に答える 1

12

私は今朝同じ問題に直面しました。ファイル形式に関する情報は見つかりませんでしたが、文字列と grep を使用してファイルから必要な情報を抽出することができました。

strings -e l *.msg | grep pattern

-el (小文字の L) は UTF-16 から変換します。

これは、ファイルから必要なデータを grep できる場合にのみ機能します (つまり、必要なすべての行に標準の文字列またはパターンが含まれている場合)。

于 2013-03-13T10:27:21.740 に答える