私は次のデータを処理するための最良の方法を見つけようとしています。サイトをスクレイピングし、テキスト(.prn)ファイル(印刷用のファイル。これは必要なデータを含むファイルです。AdobeAcrobatファイルよりも優れていると思います)を使用してデータを収集しています。私の問題は、データをPythonに取り込むときです。データは、一度に1文字ずつ画面の垂直方向に表示されるため、複数の行がある場合でも、このデータは1つの列にストリーミングされます。行[0]、行[1]などを取り込むことができるより「従来の」方法でデータを取り込む方法を誰かが知っているだろうかと思います...これが役立つ場合の私のコードです(あなた私が試した他の機能のいくつかも見ることができます)。
import os
import urllib
import urllib2
import string
import sys
import os
from bs4 import BeautifulSoup
import csv
import mechanize
from numpy import*
import datetime
import traceback
from pylab import*
site="http://www.treasurydirect.gov/govt/reports/pd/mspd/mspd.htm"
br = mechanize.Browser()
br.set_handle_equiv(False)
br.open(site)
print 'br.title',br.title()
allforms = list(br.forms())
br.form = allforms[0]
br.follow_link(text_regex="February", nr=0)
#br.click_link(text='February', nr=0) # this works to
#next page
print br.title()
allforms = list(br.forms())
print allforms
br.form = allforms[0]
getstuff=br.click_link(text="Text (.prn)", nr=0) # this works to
#getstuff= br.click_link(text="Adobe Acrobat (.pdf)", nr=0) Adobe Acrobat (.pdf)
br.open(getstuff)
csvData=br.response().read() # use read to BeautifulSoup(x)
#site = BeautifulSoup(csvData)
#print site
for row in csvData:
print row[0]
テキスト(.prt)ファイルがある正確なサイトページは次のとおりです。http: //www.treasurydirect.gov/govt/reports/pd/mspd/2013/2013_feb.htm
サマリーの下のテキスト(.prn)ファイルのデータを処理しようとしています。データを処理するための最良の方法についてアドバイスをお願いします。
私はpython27、機械化、美しいスープとurllibを使用しています