私は約 700 の html ドキュメントを持っているという問題があり、それぞれがスパンに含まれる 1 つの文字を含み、すべて同じクラスが与えられています。
すべての文字を取り出して結合する方法はありますか? BeautifulSoup やその他の方法を使用している可能性がありますか?
私は約 700 の html ドキュメントを持っているという問題があり、それぞれがスパンに含まれる 1 つの文字を含み、すべて同じクラスが与えられています。
すべての文字を取り出して結合する方法はありますか? BeautifulSoup やその他の方法を使用している可能性がありますか?
確かにあります。次のようなものを試してください。
import os
from BeautifulSoup import BeautifulSoup
letter_list = []
for file in os.listdir('path/to/dir'):
with open('path/to/file', 'r') as html_file:
html = ' '.join(str(x) for x in list(html_file)) # Combines each row in file into a single string
soup = BeautifulSoup(html)
letter = soup('span',{'class':'someclass'})[0].contents[0]
letter_list.append(letter)
my_string = ''.join(str(x) for x in letter_list)
これにより、ディレクトリが繰り返され、各htmlファイルが開かれ、文字列が解析されます。抽出された文字はリストに追加され、すべてのファイルが解析されると結合されます。