0

私は以下のテキストとpdfファイルを扱っています5KB。ファイルがテキスト ファイルの場合、フォームからファイルを取得し、必要な入力を文字列で取得して要約します。

 file = file.readlines()
 file = ''.join(file)
 result = summarize(file, num_sentences)

簡単にできますが、pdf ファイルの場合はそれほど簡単ではありません。Python/Djangoのtxtファイルで行ったように、pdfファイルの文を文字列として取得する方法はありますか?

4

2 に答える 2

3

txtファイルで行っているのと同じようにpdfを読むことはできないと思います。pdfをtxtファイルに変換して(PDFをテキストに変換するためのPythonモジュールを参照してください)、それを処理する必要があります。これを参照して、pdf を txt に簡単に変換することもできます http://code.activestate.com/recipes/511465-pure-python-pdf-to-text-converter/

于 2013-04-10T10:49:04.310 に答える