.docファイルと.docxファイルがあるとします。PHPでLiveDocxを使用してファイルをロードし、その内容を読み取り、その中からテキストを削除したいと思います。次に、それをHTML文字列に保存します。
これはできますか?
ドキュメントを検索しましたが、LiveDocxは.docと.docxのテンプレートファイルのみをロードすることがわかりました。
外部ライブラリを使用して保存し、ファイル内の XML からテキストを取得するだけです: http://www.webcheatsheet.com/PHP/reading_the_clean_text_from_docx_odt.php
LiveDocX で文書変換を行う場合、差し込み印刷を行ってから文書を取得する必要があります。新しいコンテンツを挿入していなくても、ダミーのプレースホルダーをダミーのコンテンツに置き換える差し込み印刷を行う必要があります。
したがって、私が提案するプロセスは次のとおりです。
1) ソース ドキュメントをローカル テンプレートとして設定する
2) ダミー フィールドをダミー コンテンツとマージする
3) ドキュメントを HTML として取得する
4) スクリプト サーバー側を使用して html を削除し、コンテンツのみを残す (たとえば、HEAD 間のすべてを削除する)タグ、残りは strip_tags) 5) コンテンツは単純な文字列として残す必要があります。意味がありすぎるかどうかはわかりませんが、検索インデックスのようなものを構築するのに役立つかもしれません。
この例で必要なものを見つけることができると思います。
私は間違っているかもしれませんが、彼らはそれらを「テンプレート」ファイルと呼んでいると思います。なぜなら、それらはテンプレートのように機能しますが、それでも通常の .doc/.docx ドキュメントだからです。その例を実行してみることをお勧めします。
phpLiveDocx TextControl リンクを改善する TextControl を使用できると思います
これを使用して、pdf doc および docx をインポートすることもできます