次のデータ構造を持つ HTML ファイルがあります。
<tr>
<td valign="top"><img src="img.jpg"></td>
<td><a href="file.zip">file.zip</a></td>
<td align="right">24-Apr-2013 12:42 </td>
<td align="right">200K</td>
</tr>
...
これは基本的に単純な表で、Firefox で表示すると次のようになります。
file.zip 22-Apr-2013 12:42 200K
この 3 つの値 (ファイル名、日付、サイズ) を抽出したいのですが、たとえば次のように実行できますがsplit()
、Python でこれの「html 解釈形式」を出力できるかどうか疑問に思っていますか?
import xyz
print xyz.htmlinterpreted(htmlfile.html)
>>> file.zip 22-Apr-2013 12:42 200K
そうすれば、データを簡単に分割できますsplit(" ")
。これはpythonで可能ですか?