拡張子が doc/docx/xls/xlsx/pdf のファイルを HTML ファイルに変換したいと考えています。Perlを使用してSolarisで簡単な方法でそれを行う方法はありますか?
3 に答える
私が Microsoft Office ファイルの処理に使用した perl ライブラリはかなり不足しており、Office 2007 および Office 2010 拡張機能を適切に処理するものをまだ見つけていません (知っている場合は、コメントで 1 つを指摘してください)。 1!)
Microsoft Office を実行している PC をお持ちの場合は、win32ole を使用して unix から Office アプリを制御できます。Rubyで以前にやったことがあります: http://rubyonwindows.blogspot.com/2007/03/automating-excel-with-ruby.html
win32 OLE を使用するための perl モジュールは次のとおりです: http://metacpan.org/pod/Win32::OLE
個人的には OLE アプローチはお勧めしません。なぜなら、これには多くの頭痛の種があるからです (UNIX スクリプトが機能するために PC で Office を実行したままにしておく必要がある、PC がパッチで更新されると、Windows ファイアウォールが UNIX スクリプトをほぼランダムにブロックするなど)。 .
私はこれを試していませんが、OpenOffice と GhostScript を使用してバッチ変換を行う Java プログラムを次に示します: http://www.codeproject.com/KB/java/PDFCM.aspx
htmlへのExcelの場合-> Exceltohtmlを使用できます
次のモジュールが必要です。
use Spreadsheet::ParseExcel;
use File::Find ; use Cwd ;
ちなみに、 pdfファイルをテキストに変換するxpdfというユーティリティがあります。これは Solaris でコンパイルされていますが、ソースからコンパイルする必要があります (コマンド ラインからユーティリティを呼び出すことができます)。私はそれを使用しましたが、それは素晴らしいです。
さらに重要なことは、 pdf を htmlに変換する修正版があることです。これはまだテストしていませんが、試してみる価値はあります。