英語以外の Web サイトのテキストのみのコンテンツを取得しようとしています。たとえば、http://www.bbc.co.uk/hindi/のヒンディー語コンテンツを取得したい
英語の Web サイトのテキスト ダンプの場合wget
、コンテンツの取得に使用します。次に、HTML パーサーを使用して HTML タグを削除し、クリーンなテキストを提供してください。
英語以外の Web サイトで作業するための同等のツールは何ですか?
これは、私が探求しているペット プロジェクトです。速度はあまり気にしません。私は Linux 環境でコーディングし、できれば Python、Java、または C/C++ を (この順序で) 使用します。