0

.docファイルのURLを含む列を含む.csvファイルがあります。これらのファイルをすべて保存してから、これらの.docファイルをローカルで.textにバッチ変換し、最終的に含まれるテキストを追加するコードを作成する必要があります。これらのファイルで、元の.csvファイル/データベースに戻します。ダウンロードする.docファイルは3000を超えていますが、すべて100kb未満です。私はPythonが得意ではありませんが、学習しようとしているので、これに関するヘルプをいただければ幸いです。

これまでのところ、私はこのコードを持っています:

import os
import sys
import csv

def get_urls(path):
    reader=csv.reader(open(path,'U'),delimiter=',')
    reader.next()
    return [row[0] for row in reader]

url_file_path='urllist.csv'
urllist=get_urls(url_file_path)

これが最善のアプローチですか。つまり、URLをリストとして抽出し、urllibを使用してダウンロードするのですか。

ありがとう

4

2 に答える 2

0

見て

リンク.py

pngファイルをダウンロードします

于 2013-02-05T11:42:23.523 に答える
0

これらの最初の手順で Python を使用しないことにしたので、wget を使用してファイルをダウンロードし、次にアンチワードを使用してすべての .doc ファイルを .txt に変換しました。

ありがとう

于 2013-02-06T10:47:27.463 に答える