3

.doc.docx.odtおよび.pdfタイプのファイルの単語数を取得しようとしています。これは.txtファイルの場合は非常に簡単ですが、上記のタイプで単語数をカウントするにはどうすればよいですか?

私はUbuntuでpythondjangoを使用しており、ユーザーがシステムを介してファイルをアップロードするときにドキュメントの単語を単語カウントしようとしています。

4

2 に答える 2

4

まず、 .doc .docx .odtおよび.pdfを読む必要があります。

次に、単語を数えます ( <2.7 バージョン)。

于 2011-09-23T13:02:23.507 に答える
0

.txt ファイルに対してこれを行うことができることを考えると、単語の数え方を知っていること、およびさまざまなファイルの種類を読み取る方法を知っていることだけが必要であると仮定します。これらのライブラリを見てください。

PDF: pypdf

doc/docx:この質問python-docx

odt:例はこちら

于 2011-09-23T18:35:53.150 に答える