またはBeautifulSoupを使用してください
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
編集
どうやら私はあなたにドキュメンテーションを読む方法についていくつかのヒントを与えなければなりません。
- リンクを開く
- 左側には大きなメニュー(ティールカラー)があります
- 注意深く見ると、ドキュメントが複数のセクションに分かれていることに気付くでしょう。
- もの
- ツリー内のナビゲーション
- ツリーを検索する
- ツリーを変更する(わかった)
- 出力(わかりました!)
そしてもっとたくさんのこと
Beautiful Soupは、HTMLおよびXMLファイルからデータを引き出すためのPythonライブラリです。これは、お気に入りのパーサーと連携して、解析ツリーをナビゲート、検索、および変更するための慣用的な方法を提供します。通常、プログラマーは数時間または数日の作業を節約できます。
最初の文の後で読むのをやめないでください...最後の文は非常に重要であり、途中に何がありますか。
つまり、空のドキュメントを作成できます...次のように言います。
soup = BeautifulSoup("<div></div>")
document = soup.div
それからあなたはあなたのテキストの各行を読みます..そしてあなたがテキストを持っているときはいつでもそれをします。
document.append(line)
行が`*``で始まる場合
ul = document.new_tag('ul')
document.append(ul)
document = ul
次に、ドキュメントのすべてをプッシュしli
ます...そして、読み終えたら*
、親をポップして、ドキュメントがdivに戻るようにします。そしてそれを続けてください...あなたはsに挿入するためにそれを再帰的に行うことさえできul
ますul
。
すべてを解析したら...できる
str(document)
また
document.prettify()
編集
HTMLではなくフォーマットされていないテキストを編集していることに気づきました。次にマークダウンを使用してみてください。
http://daringfireball.net/projects/markdown/