ms-word - USB デバイスから復元されたデータから Word 文書を抽出するにはどうすればよいですか?

Question

他の方法ではアクセスできない USB ドライブから生データを約 250MB のモノリシックファイルにコピーできました。そのバイトの塊のどこかに、約 40 個の Word ドキュメントがあります。

バイトストリームを解析し、Word ドキュメントの開始位置と終了位置を認識してコピーを抽出できるように、Word ドキュメントの内部構造に関するドキュメントはどこにありますか?
このタスクに固有のプログラミング言語のライブラリはありますか?
この問題に対する既存のソフトウェアソリューションを提案できる人はいますか?

score 5 · Accepted Answer

2 つのアプローチ:

Linux ではファイルをボリュームとしてマウントできます。バイナリ BLOB が破損していなければ、ファイルシステムを分解してファイルの場所を特定できる可能性があります。それは FAT パーティションですか、それとも NTFS ですか?

D0 CF 11 E0 A1 B1 1A E1

これらは、オフィスドキュメントファイルの署名の「マジックバイト」です。他のデータではランダムに発生する可能性がありますが、それは始まりです。ファイルが断片化されていると、重大な問題が発生します。

また、Word でドキュメントの一部をそのまま再作成して、ファイルに保存し、チャンクを抽出して BLOB で検索します (grep バイナリなどを使用)。ファイルのすべての部分からの情報があれば、ブロブ内の WHERE をデコードできるはずです。それを作業用の DOC バイナリに戻すのは非常に難しいように思えますが、残りのテキストを復元することは不可能ではありません。

score 2 · Accepted Answer

Apache POIプロジェクトには、あらゆる種類の MS Office ドキュメントを読み書きするためのライブラリがあります。ファイルが新しい XML ベースのOOXML形式の場合、XML が圧縮されているため、zip ファイルの先頭を探します。

ms-word - USB デバイスから復元されたデータから Word 文書を抽出するにはどうすればよいですか?

2 に答える 2

Related

Reference