OS X/Linux で Word ファイルを解析し、コンテンツを HTML として出力するために使用できるライブラリを知っている人はいますか?
私はwin32oleを見てきましたが、間違っている可能性はありますが、私が見る限りWindows専用です。
助言がありますか?
Wordのドキュメント形式(現時点ではdocxを無視)はひどく、絶えず変化していました。IMHOは、それらを解析するためのRubyライブラリが非常に少ない(読み取り:ゼロ)理由です。
私がお勧めするのは、JRubyと確立されたJavaライブラリのいくつかを使用してドキュメント形式を読み取ることです。Googleはあなたを助けるべきです:http ://schmidt.devlib.org/java/libraries-word.html 。
MIcrosoftファイル形式を読み取るためのJavaプロジェクトPOI(http://poi.apache.org/)があり、Rubyバインディング(http://poi.apache.org/poi-ruby.html)がありますが、私はmそれらがどれほど最新かわからない。彼らのサイトでは、Rubyバインディングは1.8.2用であると書かれています...