-1

私は現在、ウェブページのデータを読み取るための自動化を考えています。したがって、以下の種類の表を読み取って、WebページからExcelに読み込むことは可能ですか。Excelの値は。である必要がありますname of condion,Operator and Expressions

編集

    >>> from urllib import urlopen
>>> from bs4 import BeautifulSoup
>>> source = BeautifulSoup(urlopen(url))
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name 'url' is not defined
>>> source = BeautifulSoup(urlopen(https://demo.aravo.com))
  File "<stdin>", line 1
    source = BeautifulSoup(urlopen(https://demo.aravo.com))
                                        ^
SyntaxError: invalid syntax
>>> from urllib import urlopen
>>> from bs4 import BeautifulSoup
>>> source = BeautifulSoup(urlopen(https://demo.aravo.com/))
  File "<stdin>", line 1
    source = BeautifulSoup(urlopen(https://demo.aravo.com/))
                                        ^
SyntaxError: invalid syntax
>>> source = BeautifulSoup(urlopen(demo.aravo.com/))
  File "<stdin>", line 1
    source = BeautifulSoup(urlopen(demo.aravo.com/))
                                                  ^
SyntaxError: invalid syntax
>>> source = BeautifulSoup(urlopen(demo.aravo.com))
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name 'demo' is not defined
>>>

EDIT2

C:\Users>cd..

C:\>cd cd C:\Python27\selenv\Scripts
The filename, directory name, or volume label syntax is incorrect.

C:\>cd C:\Python27\selenv\Scripts

C:\Python27\selenv\Scripts>python
Python 2.7.3 (default, Apr 10 2012, 23:31:26) [MSC v.1500 32 bit (Intel)] on win
32
Type "help", "copyright", "credits" or "license" for more information.
>>> from urllib import urlopen
>>> from bs4 import BeautifulSoup
>>> source = BeautifulSoup(urlopen("https://demo.aravo.com/"))
>>> tables = source.findAll('td')
>>> import csv
>>> writer = csv.writer(open('filename.csv','w'))
>>> writer.writerow(rows)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name 'rows' is not defined
>>>

ありがとう

4

2 に答える 2

1

urllibライブラリからurlopenを使用してページのソースを取得し、続いてBeautifulSoupを使用してhtmlを解析することもできます。

from urllib import urlopen

from beautifulSoup import BeautifulSoup

#get BeautifulSoup object
source = BeautifulSoup(urlopen(url))

#get list of table elements from source
tables = source.findAll('td')

exelで使用するために情報を保存する最も簡単な方法は、おそらくそれを.csvファイルとして保存することです。

csvモジュールを使用してこれを行うことができます

import csv
writer = csv.writer(open('filename.csv','w'))
writer.writerow(rows)

これらのモジュールはすべて非常によく文書化されているので、空欄に記入することができます。

これらのライブラリがインストールされていることを確認するには、setuptoolsからダウンロードできるeasy_installがあることを確認してください。easy_installを実行したら、これをシェルに入力します。

easy_install csv
easy_install BeautifulSoup
easy_install urllib
easy_install ipython

次に、ipythonを実行してライブPython環境に入ります

ipython

これにより、前のコードをテストできるPythonシェルが開きます。これがお役に立てば幸いです。基本についてさらにヘルプが必要な場合は、WebでPythonチュートリアルを検索してください。[scraperwiki][3]PythonでのWeb解析の良い例がいくつかあります。

于 2012-12-26T21:27:50.337 に答える
1

可能です。BeautifulSoupというライブラリを確認してください。ページをスクラップした後、正しい情報を取得するプロセスが簡素化されます。

#!/usr/bin/env python
from selenium import webdriver

browser = webdriver.Firefox()
url = 'http://python.org'
browser.get(url)
page_source = browser.page_source
print page_source
于 2012-12-26T20:06:01.273 に答える