(免責事項:Pythonとプログラミングはまだ新しいです)
ウェブサイトからデータを抽出する関数にPython2.7とBeautifulSoupを使用しました…</p>
date = soup.find('div', class_="attention-box").p.string
…正規表現を実行します。日付ではなく年だけが必要なので、日と月ではなく…</ p>
date = re.findall(r'(\d{4})\s+', date)
…辞書に追加する…</p>
collection['date']=date
…そして辞書を返します。
辞書からの文字列を使用して以下を印刷しようとしたとき(私はwikiのテンプレートを作成しています)
print "|" + collection['URL'] + "|" + collection['title'] + "|" + collection['name']+"|"
機能した。
日付を追加したとき
print "|" + collection['URL'] + "|" + collection['title'] + "|" + collection['name']+"|" + collection['date'] + "|"
次のエラーが発生しました:TypeError:Unicodeへの強制:文字列またはバッファが必要、リストが見つかりました
私の関数では、機能date = str(date)
する出力を追加して取得しましたが、日付セクションに[ u'2001 ']などが表示されます。この特定の設定で、この視覚的なUnicode表現(?)でこれを削除するにはどうすればよいですか?
どうもありがとうございます。