Excel/Word/ppt ファイルからテキストを抽出する簡単な方法を探しています。目的は、干し草の山で検索できるように、whoosh のコンテンツにインデックスを付けることです。
Excelで動作するxlrdやpandasなどのパッケージがいくつかありますが、それらは私が必要とするものをはるかに超えており、実際にセルのフォーマットされていないテキストコンテンツをボックスから直接印刷するかどうかはわかりません。
これを回避する簡単な方法を知っている人はいますか?私の推測では、ms office ファイルは xml 形式でなければなりません。
ありがとう!
A.