ページから Unicode 部分を抽出する必要がある HTML ファイル (以下に掲載) があります。BeautifulSoup と Python を使用してそれを行う方法を知りたいです。
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html lang="en" xmlns="http://www.w3.org/1999/xhtml" xml:lang="en">
<head>
<title>
ലിങ്കണ് വീണ്ടും വെള്ളിത്തിരയില്
</head>
<body>
<div style="float:left;width:95%;">
<div style="float:right;">
<div id="fontsizer"></div>
</div>
</div>
<div id="article_section">
<div style="float:left;width:100%;padding-bottom:20px;">
<div style="float:left;width:320px;">
<p class="commontext articlemainheading">ലിങ്കണ് വീണ്ടും വെള്ളിത്തിരയില്
</p>
<p class="commontext leftheadings" style="color:#E73101;">കെ.കെ.ബി.
</p> <p> </p>
<span style='font-family:Verdana;font-size:11px;color:#A5A5A6;float:left;margin-right:5px;'>posted on: </span><p class='labels'>22 Oct 2012</span> </div>
<a href="mailto:mb4frames@gmail.com"><img src="/movies/images/promo.jpg" style="float:right;margin-top:30px;border:0;"/></a>
</div>
<div class="commontext bodytext" style="padding-top:10px;" id="storycontent">
<div style="float:left;width:100%;font-size:18px;" id="storycontentfont">
>
യുനൈറ്റഡ് സ്റ്റേറ്റ്സ് ഓഫ് അമേരിക്ക അതിന്റെ 45-ാം പ്രസിഡന്റിനെ തിരഞ്ഞെടുക്കാനുള്ള ഒരുക്കങ്ങളിലാണ്. മുഖ്യഎതിരാളികളായ ബരാക്ക് ഒബാമയും മിറ്റ് റോംനിയും തമ്മിലുള്ള ടെലിവൈസ്ഡ് തര്ക്കം അഥവാ വാഗ്വാദങ്ങളാണ് അമേരിക്കന് ടി.വി. പ്രേക്ഷകരുടെ ചര്ച്ചാവിഷയം. സാമ്പത്തികവളര്ച്ച, തൊഴില്നിര്മാണം, ആരോഗ്യരക്ഷ എന്നിങ്ങനെയുള്ള വിഷയങ്ങളിലാണ് തര്ക്കം. നടപ്പ് പ്രസിഡന്റും വരാനിരിക്കുന്ന (?) പ്രസിഡന്റും തമ്മില് ഈവിധ വിഷയങ്ങളില് ടി.വി.സ്ക്രീനില് പരസ്പരം കടിച്ചു കീറുന്ന ആദ്യവട്ട ഡിബേറ്റ് കണ്ട് പ്രേക്ഷകര് ബോറടിച്ച് ചത്തുകൊണ്ടിരിക്കുമ്പോഴാണ് അമേരിക്കയുടെ 16-ാമത്തെ പ്രസിഡന്റ് വെള്ളിത്തിരയിലേക്ക് വന്നത്. <br/>
<br/>
അതെ, അമേരിക്കയുടെ ഏറ്റവും മഹാനായ പ്രസിഡന്റായി ജനം വാഴ്ത്തുന്ന, ഡോളര് നോട്ടുകളുടെയും പെന്നി നാണയങ്ങളുടെയും ഒരു വശത്ത് മുഖം അച്ചടിച്ചുവെച്ചിട്ടുള്ള സാക്ഷാല് അബ്രഹം ലിങ്കണ് തന്നെ സ്ക്രീനില്. യുനൈറ്റഡ് സ്റ്റേറ്റ്സ് തെക്കും വടക്കുമായി വേര്തിരിഞ്ഞ് ആഭ്യന്തരയുദ്ധം നടത്തുന്ന കാലത്തെ പ്രസിഡന്റ്. രാജ്യം വിഭജിച്ചുപോകരുത്, അതിനെ ചൊല്ലിയുള്ള യുദ്ധം അവസാനിക്കണം. ഒപ്പം കറുത്ത വര്ഗക്കാരെ അടിമകളായി വില്ക്കാനും വാങ്ങാനും കൊല്ലാനും വെള്ളക്കാരനുള്ള അവകാശം എന്നെന്നേക്കുമായി ഇല്ലാതാകണം. അത് നിയമവിരുദ്ധമാക്കി മാറ്റുന്ന 13-ാം ഭരണഘടനഭേദഗതി പാസ്സാക്കണം. അതിനുവേണ്ടി അര്പ്പണബോധത്തോടെ വാദങ്ങളുയര്ത്തുന്ന വെള്ളിത്തിരയിലെ ലിങ്കണെ കണ്ടപ്പോള് നാണയത്തിന്റെ ഒരു വശത്തെ ലിങ്കണെക്കാള് റിയല് വെള്ളിത്തിരയിലെ ലിങ്കണല്ലേ എന്നുപോലും ചിലര് സംശയിച്ചത്രേ. പ്രസിഡന്റാണെങ്കില് ഇങ്ങനെ വേണം ഡയലോഗടിക്കാന് എന്ന് പ്രേക്ഷകര് വിചാരിക്കുന്ന സമയത്താണ് കമേര്ഷ്യല് അവസാനിച്ചത്. പരസ്യങ്ങളുടെ ഇടവേളയ്ക്കുശേഷം വരവിന്റെയും ചെലവിന്റെയും വിരസമായ വാദങ്ങളുമായി ഒബാമയും റോംനിയും തിരിച്ചത്തി. <br/>
<br/>
പാവം അമേരിക്കന് പ്രേക്ഷകര് കണ്ടത് അബ്രഹാം ലിങ്കന്റെ അവസാനനാളുകളെ കുറിച്ച് സ്റ്റീഫന്സ്പില്ബര്ഗ് രചിച്ച, അടുത്ത മാസം തിയേറ്ററുകളിലെത്തുന്ന ലിങ്കണ് എന്ന സിനിമയുടെ പരസ്യം മാത്രമാണ്.<br/>
<br/>
സ്റ്റീഫന് സ്പില്ബര്ഗിനെ ഓര്മയില്ലേ? എക്കാലത്തെയും വലിയ ഹിറ്റുകളിലൊന്നായി കൂട്ടുന്ന 'ജാസ്' എന്ന ചിത്രവുമായി 30-ാമത്തെ വയസ്സില് ജനശ്രദ്ധയിലെത്തിയശേഷം വര്ഷങ്ങളോളം വിജയത്തിന്റെ ജൈത്രയാത്ര മാത്രം നടത്തിയ സംവിധായകന്. സ്പില്ബര്ഗന്നെ പേര് കേട്ടാല് മനസ്സിലെക്കോടിവരുന്ന എത്രയോ സിനിമകളും കഥാപാത്രങ്ങളുമുണ്ട് -ഇ.ടി. ദ എക്സ്ട്രാടെറസ്ട്രിയല്, ഇന്ഡ്യാന ജോണ്സ്, ദിനസോറുകളെ സാധാരണക്കാര്ക്കു കൂടി പരിചിത മൃഗമാക്കിയ ജുറാസ്സിക് പാര്ക്ക്, ഷിന്ഡ്ലേഴ്സ് ലിസ്റ്റ്..... അദ്ദേഹത്തിന്റെ ചിത്രങ്ങളെല്ലാം കൂടി ലോകത്തെല്ലായിടത്തുനിന്നുമായി 850 കോടിഡോളര് (ഏതാണ്ട് 42,500 കോടി രൂപ) നേടി എന്നാണ് കണക്ക്. സംവിധായകനും തിരക്കഥാകൃത്തുമായി തുടങ്ങിയ സ്പില്ബര്ഗ് നാല് പതിറ്റാണ്ട് കഴിയുമ്പോഴേയ്ക്കും നിര്മാതാവും വ്യവസായിയും ശതകോടീശ്വരനുമൊക്കെയായി മാറി. <br/>
<div align='center'><img src='http://images.mathrubhumi.com/images/2012/Oct/22/03089_439148.jpg' border='0px'/></div><br/>
എങ്കിലും അദ്ദേഹം സിനിമ ഉപേക്ഷിച്ചിട്ടില്ല. ഒരിക്കല് വാണിജ്യവിജയത്തിന്റെ ഉദാത്ത മാതൃകകളായ ചിത്രങ്ങളെടുത്ത സംവിധായകന് കലാമൂല്യമുള്ള ചിത്രങ്ങളിലേക്ക് ശ്രദ്ധ തിരിച്ചു - അതിന്റെ ഫലമാണ് ഷിന്ഡ്ലേഴ്സ് ലിസ്റ്റും സേവിങ്ങ് പ്രൈവറ്റ് റയാനും അമിസ്റ്റാഡും പോലുള്ള രചനകള്. അവയും അപ്രതീക്ഷിതമായ വാണിജ്യവിജയങ്ങള് നേടിയപ്പോള് കലയും കച്ചവടവും സംയോജിപ്പിക്കാന് കഴിവുള്ളവന് എന്ന പ്രശസ്തി കൂടി അദ്ദേഹം കരസ്ഥമാക്കി.<br/>
<br/>
അദ്ദേഹത്തിന്റെ ഹിറ്റായ ഒടുവിലത്തെ ചിത്രം 2008-ല് റിലീസ് ചെയ്ത ഇന്ഡ്യാന ജോണ്സ് ആന്ഡ് ദ ക്രിസ്റ്റല് സ്കള് ആയിരുന്നു. ചിത്രം സാമ്പത്തിക വിജയമായിരുന്നെങ്കിലും ഇന്ഡ്യാന പരമ്പരയിലെ നാലാം ചിത്രം എന്ന മാധ്യമശ്രദ്ധയെ പിടിച്ചുപറ്റിയുള്ളൂ. പൊതുവെ സ്പില്ബര്ഗ് എന്ന പേരിനുണ്ടായിരുന്ന മാജിക് പരിവേഷം മാഞ്ഞ് മാഞ്ഞില്ലാതാകുന്ന കാലമാണിത്. എന്നാല് ഈ മാസം ന്യൂയോര്ക്ക് ഫിലിം ഫെസ്റ്റിവലില് വെച്ച് ലിങ്കന്റെ പ്രിവ്യൂ കാണാന് കഴിഞ്ഞവരുടെ അഭിപ്രായം വെച്ച് ഈ ചിത്രം സ്പില്ബര്ഗനെ വീണ്ടും വെള്ളിവെളിച്ചത്തിലെത്തിക്കും. അടുത്ത ഓസ്കര് ദിനത്തില് അനേകം അവാര്ഡുകള് ലിങ്കണ് കരസ്ഥമാക്കുമെന്നാണ് ചിലരെങ്കിലും പറയുന്നത്.<br/>
<br/>
ചലച്ചിത്ര നിരീക്ഷകര് ഇങ്ങനെ നിരീക്ഷിക്കുന്നതില് അത്ഭുതമില്ല. കാരണം ഈ ചിത്രത്തില് ഹോളിവുഡിലെ ഹെവി വെയ്റ്റുകളെ എമ്പാടും കാണാം. അബ്രഹാം ലിങ്കണായി വേഷമിടുന്നത് രണ്ടുതവണ ബെസ്റ്റ് ആക്ടര് ഓസ്കര് നേടിയ ഡാനിയേല് ഡേ ലൂയിസ് ആണെങ്കില് ലിങ്കണെ എതിര്ക്കുകയും ഒപ്പം സഹായിക്കുകയും ചെയ്യുന്ന റിപ്പബ്ലിക്കന് സെനറ്റര് തദേയുസ് സ്റ്റീവന്സിന്റെ വേഷമണിയുന്ന ടോമി ലീ ജോണ്സും മൂന്നുതവണ ഓസ്കര് നോമിനേഷന് നേടുകയും ഒരു വട്ടം ബെസ്റ്റ് സപ്പോര്ട്ടിങ്ങ് ആക്ടര് അവാഡ് നേടുകയും ചെയ്തിട്ടുണ്ട്.</span></div> </div>
<div style="float:left;width:606px;background:#F2F2F2;padding:10px 0px 5px 0px;border:1px solid #DFDFDF;margin-top:10px;display:inline;" class="ajaxpagination">
<div style="float:right;margin-right:10px;"> <b>1</b> <a href="#storycontent" class='lastlink' onclick="DoAction('/movies/welcome/story/hollywood/311364/11000',11000,'storycontent')">2</a> <a href="#storycontent" class='ajaxlinks' onclick="DoAction('/movies/welcome/story/hollywood/311364/11000',11000,'storycontent')">NEXT</a> </div>
</div>
</div>
</div>
私はこれを取得する必要があります。എക്കാലത്തെയുംവലിയഎക്കാലത്തെയുംകൂട്ടുന്ന '' ''എന്നഎന്ന30-ാമത്തൊമത്തെവയസ്സിൽവർഷങ്ങളോളംജൈത്രയാത്രനടത്തിയ സ്പിൽബർഗന്നെപേര്കേട്ടാൽകേട്ടാൽഎത്രയോസിനിമകളുംസിനിമകളും -ഇ.ടി。ദ、ദ、ഇൻഡ്യാന、ദിനസോറുകളെ、ദിനസോറുകളെസാധാരണക്കാർക്കുകൂടിമൃഗമാക്കിയജുറാസ്സിക്、ഷിൻഡ്ലേഴ്സ് ഷിൻഡ്ലേഴ്സ്ലിസ്റ്റ്.. ..... സംവിധായകനുംതിരക്കഥാകൃത്തുമായിതുടങ്ങിയസ്പിൽബർഗ്സ്പിൽബർഗ്നാല്കഴിയുമ്പോഴേയ്ക്കുംനിർമാതാവുംശതകോടീശ്വരനുമൊക്കെയായിമാറി。これは、ウェブサイトhttp://www.mathrubhumi.com/storyのリンクです。
私のコード:
import os
from urllib import urlopen
from bs4 import BeautifulSoup
url= "http://www.mathrubhumi.com/sports/story.php?id=397111"
raw = urlopen(url).read()
soup = BeautifulSoup(raw)
article = soup.get_text