4

MS Office Word ドキュメントを読むために使用しているコードの塊があります。

すべてのコンテンツではなく、テキストのみを読んでいます。

<?php
function read_file_docx($filename){

    $striped_content = '';
    $content = '';
    if(!$filename || !file_exists($filename)) return false;
    $zip = zip_open($filename);
    if (!$zip || is_numeric($zip)) return false;
while ($zip_entry = zip_read($zip)) {
        if (zip_entry_open($zip, $zip_entry) == FALSE) continue;
        if (zip_entry_name($zip_entry) != "word/document.xml") continue;
        $content .= zip_entry_read($zip_entry, zip_entry_filesize($zip_entry));
        zip_entry_close($zip_entry);
    }

    zip_close($zip);
    $content = str_replace('</w:r></w:p></w:tc><w:tc>', " ", $content);
    $content = str_replace('</w:r></w:p>', "\r\n", $content);
    $striped_content = strip_tags($content);

    return $striped_content;
}

$filename = "customers.docx";

$content = read_file_docx($filename);
if($content !== false) {

    echo nl2br($content);   
}
else {
    echo 'Couldn\'t the file. Please check that file.';
}

?>

画像、グラフ、すべてのコンテンツも読み込んで Web ページに表示したい。

4

3 に答える 3

1

Aspose Cloudをチェックしてください。docx を html に変換できるサービス

そのためのPHP SDKが github にあります。

1 か月あたり 100 未満のドキュメントを変換する場合は、無料のオプションがあります

幸運を

于 2013-11-29T17:54:18.780 に答える
1

すべてのドキュメント コンテンツの抽出と、一致する Web 表示への変換をすべて自分で行おうとしている場合は、Microsoft のフォーマット仕様を読むことをお勧めします。


MS Word ドキュメントからコンテンツを抽出する便利な方法を探しているだけなら、ドキュメントの処理と抽出を既に処理しているライブラリを調べることを強くお勧めします。

PHP での MS Office ドキュメントの処理に取り組んでいるプロジェクトが 2 つあります。

  • PHPOffice / PHPWord (プロジェクトの Word ブランチがどこまで発展したかはわかりません。このプロジェクトは、MS Excel のみをサポートする小規模なものから始まりましたが、現在は Word と PowerPoint にも取り組んでいます)

  • PHPDocX (これは分割プロジェクトです。基本的な機能セットを備えた LGPL ライセンス バージョン、または一般的な Word ドキュメントで見られるほとんどのものを処理する商用の有料バージョンを入手できます)

HTH

于 2013-11-29T01:57:25.040 に答える