次のコードがあります
from bs4 import BeautifulSoup
from stripogram import html2text
import commands
import os
import urllib2
import sys
import re
import string
response = urllib2.urlopen(sys.argv[1])
html = response.read()
soup = BeautifulSoup(html)
outter = soup.find("div",{"id":"ps-content", "class":"bucket"})
final = outter.find("div", {"class":"buying"})
text = final.findAll(text=True)
asd = str(final)
print os.system("echo '" +asd + "'| html2text" )
そしてそれは出力します
Publication Date: February 1996 | ISBN-10: 0471121207 | ISBN-13: 978-
0471121206 | Edition: 2
次の2つのことを行う必要があります。
「Publication Date:」や「ISBN-10」などの初期情報をすべて読み取り、 属性として認識します
それが属性であることがわかったら、それをSQLデータベースにアップロードして、発行日がその列になるようにします。これらはすべて 1 つの行であると想定されます。
EDIT:PHPとJavaでデータベースを使用する方法を知っています。私の出力を考慮して、アップロードする構文を求めているだけです。上記の属性:値|属性:値パターンを認識する「何か:属性:値」を記述する方法はありますか?
私は主に上記の答えを配列に読み込みたいと思っています。ここで、最初の部分、「:」の前の部分がキーで、その後の部分 (「:」) が値です。
コードにコメントしてください。ありがとう