1

プログラムを使用してスクラップしたい次の説明があります。

<hr>AFROTC士官候補生に、USAFの機能、展開、および雇用活動への露出を通じて、実践的なリーダーシップと専門的なトレーニングのための最大13のオプションを提供します。外国語と文化的没頭も利用可能/可能ですが、全体的な重点はリーダーシップの開発と実習に残っています。すべてのプログラムは、米国内外の選択された空軍基地およびその他の場所でオフサイトで実施されました。<br>

私は次のコードを持っています:

findDescription = re.findall('<hr>(.*?)(?:<strong>|<br>)', coursePage)

そして、次の出力が得られます。

['AFROTCの士官候補生に、USAFの機能、展開、雇用活動への露出を通じて、実践的なリーダーシップと専門的なトレーニングのための最大13のオプションを提供します。 \ xc2 \ xa0すべてのプログラムは、米国および海外の選択された空軍基地およびその他の場所でオフサイトで実施されました。

なぜ私は\xc2\xa0ここのような奇妙なものを手に入れているのですか?私のコードも引用符でつまずきます"。率直に言って、.私の正規表現コードのピリオドはすべての文字列を受け入れる必要があると思います。何が問題になっていますか?

簡単なヒントに感謝します。金曜日に正規表現について聞いただけで、大きな進歩を遂げましたが、これは本当に数時間私をつまずかせました。

よろしく、GeekyOmega

4

1 に答える 1

5

\xC2\xA0 は Unicode 文字 0xA0 の UTF-8 エンコーディングで、通常   のように記述されます。html ファイルで。

于 2013-02-03T21:18:55.467 に答える