私はMAPIツール (Microsoft lib および .NET) を使用してから、 TIKA ライブラリを apacheして交換サーバーからpstを処理および抽出していますが、これはスケーラブルではありません。
MR の方法を使用して pst を処理/抽出するにはどうすればよいですか ... MR ジョブで使用できる Java で利用可能なツール、ライブラリはありますか。どんな助けでも素晴らしいでしょう。
Jpst Lib は内部的に以下を使用します。PstFile pstFile = new PstFile(java.io.File)
問題は、Hadoop APIに近いものがないことjava.io.File
です。
次のオプションは常に存在しますが、効率的ではありません。
File tempFile = File.createTempFile("myfile", ".tmp");
fs.moveToLocalFile(new Path (<HDFS pst path>) , new Path(tempFile.getAbsolutePath()) );
PstFile pstFile = new PstFile(tempFile);