2

英語以外の Web サイトのテキストのみのコンテンツを取得しようとしています。たとえば、http://www.bbc.co.uk/hindi/のヒンディー語コンテンツを取得したい

英語の Web サイトのテキスト ダンプの場合wget、コンテンツの取得に使用します。次に、HTML パーサーを使用して HTML タグを削除し、クリーンなテキストを提供してください。

英語以外の Web サイトで作業するための同等のツールは何ですか?

これは、私が探求しているペット プロジェクトです。速度はあまり気にしません。私は Linux 環境でコーディングし、できれば Python、Java、または C/C++ を (この順序で) 使用します。

4

1 に答える 1

2

Unicode に遭遇すると、HTML の解析に使用している方法が失敗するようです。あらゆる種類の Web サイトの解析に最適な BeautifulSoup というモジュールがあり、Unicode を問題なく処理します。インタラクティブに試してください:

>>> import urllib, BeautifulSoup
>>> html = urllib.urlopen( 'http://www.bbc.co.uk/hindi/' ).read()
>>> soup = BeautifulSoup.BeautifulSoup( html )
>>> print soup.find( 'title' ).contents
[u'BBC Hindi - \u092a\u0939\u0932\u093e \u092a\u0928\u094d\u0928\u093e']

私の端末はこれらの文字を印刷できませんが、通常はヒンディー語のテキストをここでも表示できます。

于 2011-10-30T04:22:23.693 に答える