現在、.xml ファイルを入力として使用し、.pdf を生成する XSL-FO 変換を使用して、すべての公式ドキュメントを生成しています。基本的に、これらの .xml 内のすべてのコンテンツは、プレーン テキストまたは xhtml のいずれかです。これは日常のユースケースでは問題なく機能しますが、XSL-Fo トランスフォーマー (Antenna House) がネイティブに処理できない Microsoft Excel ファイルを参照するユーザーもいます (そして、実際にそれを行っているユーザーは他にいません)。
そのため、中間の短期的な解決策として、ユーザーが定義した印刷領域から画像を作成し、これらの画像を .pdf に埋め込んでいます。
ただし、これらの画像は明らかに「検索可能な」コンテンツではないため、これらの .pdf などを OCR で処理する後処理ステップを検討していましたが、私の考えでは、これはすべて回避策の穴に深く入り込んでいます。
これらの .xls ファイルを SpreadsheetML に変換し、それを xsl-fo スタイルシートでカバーするというアイデアがありましたが、spreadsheetml の仕様を見て、その希望もあきらめました.. 少なくとも、実装に数十人月を投入することなく。
では、私の実際の質問に移ると、xsl-fo 駆動型のドキュメント生成で Microsoft Excel ファイルをどのように処理しますか?
乾杯と感謝、-J