0

今、このページの美しいスープ 4 のすべての段落タグを取得しています。

<p class="MsoNormal" style="text-align: center"><b>
                            <span lang="EN-US" style="font-family: Arial; color: blue">
                            <font size="4">1 </font></span>
                            <span lang="AR-SA" dir="RTL" style="font-family: Arial; color: blue">
                            <font size="4">&#1600;</font></span><span lang="EN-US" style="font-family: Arial; color: blue"><font size="4"> 
                            с&#1199;р&#1241; фати&#1211;&#1241;</font></span></b></p>

2つのフォントタグにあるものを取得しようとしていますが、テキストは右揃えになります。これは dir="RTL" と関係があると思います

しかし、私は左から右にそれをしたいです。

4

1 に答える 1

0

次のようなものを試すことができます:

for elem in soup.findAll('font'):
    print elem.text.strip()

これは、取得した Unicode 文字列に、に属する複数の文字が含まれているためSeparator, Space Category [Zs]です。あなたはそれを自分で見ることができます:

import unicodedata

for c in elem.text:
    print unicodedata.category(c),
于 2013-01-13T17:30:56.290 に答える