1

Excel/Word/ppt ファイルからテキストを抽出する簡単な方法を探しています。目的は、干し草の山で検索できるように、whoosh のコンテンツにインデックスを付けることです。

Excelで動作するxlrdやpandasなどのパッケージがいくつかありますが、それらは私が必要とするものをはるかに超えており、実際にセルのフォーマットされていないテキストコンテンツをボックスから直接印刷するかどうかはわかりません。

これを回避する簡単な方法を知っている人はいますか?私の推測では、ms office ファイルは xml 形式でなければなりません。

ありがとう!

A.

4

1 に答える 1

2

私は以前にこれを「手作業で」行ったことがあります。結局のところ、.(doc|ppt|xls)x ファイルは、すべてのコンテンツを含む .xml ファイルを含む単なる zip ファイルです。したがってzipfile、それを行うためのより良いツールが見つからない場合は、好みの xml パーサーを使用してコンテンツを読み取ることができます。

于 2013-10-21T17:21:44.493 に答える