python - Unicode 文字で分割するための split 関数

Question

以下のコードで Unicode 文字 \u2013 を分割できません

actualdata=metatry['content'].split("-")
print "^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^"+actualdata[0]
dat=actualdata[0].split("\u2013")
print "^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^"+dat[0]
productlist.append(dat[0])

出力が存在しても\u2013が取り除かれません誰かがこれについて私を助けてくれたら助かります。

score 2 · Accepted Answer

as is に Unicode 文字列を追加'u'してみてください:'\u2013'metatry['content']

u"Samsung Galaxy Note II \u2013 Latest Smartphone in India ".split(u'\u2013')

score 1 · Accepted Answer

metatry['content']文字列ではなく、Unicodeオブジェクトです。だからあなたのsplit呼び出しは失敗します：

>>> s = u"Samsung Galaxy Note II \u2013 Latest Smartphone in India "
>>> s.split("\u2013")
[u'Samsung Galaxy Note II \u2013 Latest Smartphone in India ']

代わりに、 Unicode文字で分割する必要があります。\u2013

>>> s = u"Samsung Galaxy Note II \u2013 Latest Smartphone in India "
>>> s.split(u"\u2013")
[u'Samsung Galaxy Note II ', u' Latest Smartphone in India ']

PS: Beautiful Soup と仕事をしているとおっしゃいましたね。Beautiful Soup は Unicode 文字列のみを使用します。

python - Unicode 文字で分割するための split 関数

2 に答える 2

Related

Reference