mhtml - mht ファイルからの画像とテキストの抽出

Question

画像とテキストを含む mht ファイルがあります。メモ帳++で開くと、xmlが表示され、画像と思われる判読できないテキストが表示されます。java プログラムを使用して mht ファイルから画像とテキストを抽出する方法を誰か教えてもらえますか? ありがとう。

score 7 · Accepted Answer

7

ExtractMHTというツールを試してください

/* removed dangerous link */

于 2014-05-16T15:40:54.317 に答える

score 4 · Accepted Answer

少し古いですが、Internet Explorerで開き、HTMLとして保存することもできます

アップデート：

IE で .mht ファイルを開き、[ファイルの種類] を [Web ページ、完全 ( .htm; .html)] に設定して保存すると、' filename .htm' ファイルも作成されます。「filename _files 」ディレクトリとして。そのディレクトリには、多くの .tmp ファイルがあります。MS の「Problem Steps Recorder」からの出力の場合、名前に「(1)」が含まれる一連のファイルが含まれます (「mhtD3B8.tmp」ファイルと「mhtD3B8(1 .tmp ' ファイル)。「(1)」ファイルは、拡張子が .tmp の .jpg 形式の画像です。そのフォルダから名前に「(1)」が含まれるすべてのファイルを検索し、それらを別のディレクトリにコピーします。

新しいディレクトリに移動したら、そこにあるコマンドウィンドウを開きます。すべての拡張子を一度に変更するには、" rename *.tmp *.jpg " (引用符なし) と入力し、Enter キーを押します。出来上がり - すべての画像ファイルが抽出されます。

テキストへのアクセスに関しては、ファイルが .htm ファイルとして保存されているため、そのファイルを Notepad++ で開き、そこで適切に解析/読み取ることができるはずです。

お役に立てれば！

score 2 · Accepted Answer

仕事をするべきであると呼ばれるオープンソースのperlツールがあります：unmht

アーカイブ内の最初の HTML ファイルはプライマリ Web ページと見なされ、その他のファイルには画像やフレームなどの「ページ要件」が含まれます。プライマリ Web ページは、出力ディレクトリ (デフォルトでは現在のディレクトリ) に書き込まれます。これは、プライマリ HTML ファイル名に拡張子を付けずに「_files」を追加した名前のサブディレクトリに必要です。要件を参照するすべての HTML ファイル内のリンク URL は、保存されたファイルを指すように書き換えられます。

mhtml - mht ファイルからの画像とテキストの抽出

3 に答える 3

Related

Reference