PdfFileReader
pdf ファイルからコンテンツを読み取り、オブジェクトを作成します。
経由で cdn から pdf をクエリしurllib.urlopen()
ています。これにより、シークのないオブジェクトのようなファイルが提供されます。PdfFileReader
、ただし、シークを使用します。
URL経由でダウンロードしたpdfから PdfFileReader オブジェクトを作成する簡単な方法は何ですか?
さて、ディスクへの書き込みとfile()
.
前もって感謝します。
ここで時期尚早に最適化しているのではないかと思います。
最新のシステムのほとんどは、ファイルをディスクにフラッシュする前にかなりの時間メモリにキャッシュします。そのため、データを一時ファイルに書き込んで読み戻し、ファイルを閉じて削除すると、重要なファイルがないことがわかる場合があります。ディスク トラフィック (実際に 100MB でない限り)。
tempfile.TemporaryFile()
閉じたときに自動的に削除される一時ファイルを作成するusing を調べたりtempfile.SpooledTemporaryFile()
、特定のサイズを超えるまですべてを明示的にメモリに保持したりすることをお勧めします。
メソッドを使用し.read()
てファイルのデータ全体を読み取り、独自の File のようなオブジェクトを作成して (ほとんどの場合StringIOを介して)、それにアクセスできるようにします。
これを行うための安価ですぐに使える方法は実際にはありません。StringIO
最も簡単な方法は、すべてのデータを読み取り、それをオブジェクトに入れることです。ただし、最初にすべてを読む必要があります。これは、必要なものである場合とそうでない場合があります。
必要なときにだけ読み取り、読み取った内容 (または読み取った内容の一部) を保存するものが必要な場合は、自分で作成する必要があります。StringIO
いくつかの例について、モジュール (またはio
Python 2.6 のモジュール)のソースを見たいと思うかもしれません。