まず、html 行は次のようになります。
<tr class="evenColor"> blahblah TheTextIneed blahblah and ends with </tr>
実際の html を表示しますが、それをブロックする方法がわかりません。恥ずかしい
BeautifulSoup (Python) またはその他の推奨される画面スクレイピング/解析方法を使用して、同じディレクトリにある約 1200 の .htm ファイルを CSV 形式で出力したいと考えています。これは最終的に SQL データベースに入ります。各ディレクトリは 1 年を表しており、私は少なくとも 5 年を計画しています。
glob
私はいくつかのアドバイスからこれを行うための最良の方法としてふざけてきました。これは私がこれまでに持っていて、立ち往生しているものです。
import glob
from BeautifulSoup import BeautifulSoup
for filename in glob.glob('/home/phi/data/NHL/pl0708/pl02*.htm'):
#these files go from pl020001.htm to pl021230.htm sequentially
soup = BeautifulSoup(open(filename["r"]))
for row in soup.findAll("tr", attrs={ "class" : "evenColor" })
これは醜いことはわかっていますが、このようなことを試みるのは初めてです。何千ものファイルを手動でコピーして Excel に貼り付ける必要がないことに気付いた後、この 1 つの問題に到達するまでに数か月かかりました。また、フラストレーションからコンピューターを繰り返しキックできることにも気付きましたが、それでも動作します (お勧めしません)。CSV ファイルを作成するために次に何をすべきかを知る必要があります。助けてください。そうしないと、モニターがついにハンマーで殴られてしまいます。