.docファイルのURLを含む列を含む.csvファイルがあります。これらのファイルをすべて保存してから、これらの.docファイルをローカルで.textにバッチ変換し、最終的に含まれるテキストを追加するコードを作成する必要があります。これらのファイルで、元の.csvファイル/データベースに戻します。ダウンロードする.docファイルは3000を超えていますが、すべて100kb未満です。私はPythonが得意ではありませんが、学習しようとしているので、これに関するヘルプをいただければ幸いです。
これまでのところ、私はこのコードを持っています:
import os
import sys
import csv
def get_urls(path):
reader=csv.reader(open(path,'U'),delimiter=',')
reader.next()
return [row[0] for row in reader]
url_file_path='urllist.csv'
urllist=get_urls(url_file_path)
これが最善のアプローチですか。つまり、URLをリストとして抽出し、urllibを使用してダウンロードするのですか。
ありがとう