Outlook の電子メール アカウントから大量のデータ ダンプがあり、完全に .msg ファイルになっています。ubuntu の file メソッドをすばやく呼び出すと、それらが Composite Document File V2 Documents (それが何を意味するかに関係なく) であることが明らかになりました。これらのファイルをプレーンテキストとして読み取れるようにしたいと思っています。それはまったく可能ですか?
更新: これらの種類のファイルで大規模なデータ マイニングを行うために私が望んでいたことを完全に実行することはできず、残念でした。同じ問題に直面した場合に備えて、この問題に対処するためのライブラリを作成しました。https://github.com/Slater-Victoroff/msgReader
ドキュメンテーションは素晴らしいものではありませんが、かなり小さなライブラリなので、一目瞭然です。