.doc.docx.odtおよび.pdfタイプのファイルの単語数を取得しようとしています。これは.txtファイルの場合は非常に簡単ですが、上記のタイプで単語数をカウントするにはどうすればよいですか?
私はUbuntuでpythondjangoを使用しており、ユーザーがシステムを介してファイルをアップロードするときにドキュメントの単語を単語カウントしようとしています。
.doc.docx.odtおよび.pdfタイプのファイルの単語数を取得しようとしています。これは.txtファイルの場合は非常に簡単ですが、上記のタイプで単語数をカウントするにはどうすればよいですか?
私はUbuntuでpythondjangoを使用しており、ユーザーがシステムを介してファイルをアップロードするときにドキュメントの単語を単語カウントしようとしています。
まず、 .doc .docx .odtおよび.pdfを読む必要があります。
次に、単語を数えます ( <2.7 バージョン)。
.txt ファイルに対してこれを行うことができることを考えると、単語の数え方を知っていること、およびさまざまなファイルの種類を読み取る方法を知っていることだけが必要であると仮定します。これらのライブラリを見てください。
PDF: pypdf
doc/docx:この質問、python-docx
odt:例はこちら