java - 英語以外の Web サイトからテキストのみのコンテンツを取得する

Question

英語以外の Web サイトのテキストのみのコンテンツを取得しようとしています。たとえば、http://www.bbc.co.uk/hindi/のヒンディー語コンテンツを取得したい

英語の Web サイトのテキストダンプの場合wget、コンテンツの取得に使用します。次に、HTML パーサーを使用して HTML タグを削除し、クリーンなテキストを提供してください。

英語以外の Web サイトで作業するための同等のツールは何ですか?

これは、私が探求しているペットプロジェクトです。速度はあまり気にしません。私は Linux 環境でコーディングし、できれば Python、Java、または C/C++ を (この順序で) 使用します。

score 2 · Accepted Answer

Unicode に遭遇すると、HTML の解析に使用している方法が失敗するようです。あらゆる種類の Web サイトの解析に最適な BeautifulSoup というモジュールがあり、Unicode を問題なく処理します。インタラクティブに試してください:

>>> import urllib, BeautifulSoup
>>> html = urllib.urlopen( 'http://www.bbc.co.uk/hindi/' ).read()
>>> soup = BeautifulSoup.BeautifulSoup( html )
>>> print soup.find( 'title' ).contents
[u'BBC Hindi - \u092a\u0939\u0932\u093e \u092a\u0928\u094d\u0928\u093e']

私の端末はこれらの文字を印刷できませんが、通常はヒンディー語のテキストをここでも表示できます。

java - 英語以外の Web サイトからテキストのみのコンテンツを取得する

1 に答える 1

Related

Reference