0 投票する

1 に答える

161 参照

python - Xpathが一致しません

ページからいくつかの要素を取得しようとしています。残念ながら、リストは空になります。きれいに印刷されたツリーには、次の要素が含まれています。

ただし、同じツリーでこれを行うと、次のようになります。

空のリストが表示されます。ツリーはhtml5lib/lxmltreebuilderで作成されました。

2011-08-20T13:07:27.737

0 投票する

2 に答える

1572 参照

python - html5libまたはbleachを使用してタグの内容を削除します

私は悪いHTMLを削除するために優れたブリーチライブラリを使用してきました。

Microsoft Wordから貼り付けられたHTMLドキュメントがたくさんあり、次のようなものが含まれています。

ブリーチを使用すると（styleタグは暗黙的に禁止されています）、次のようになります。

これは役に立ちません。ブリーチには次のオプションしかないようです。

タグをエスケープします。
タグを削除します（ただし、その内容は削除しません）。

3番目のオプションを探しています-タグとその内容を削除します。

ブリーチまたはhtml5libを使用してstyleタグとその内容を完全に削除する方法はありますか？html5libのドキュメントは、それほど役に立ちません。

python django html5lib

2011-09-24T11:00:46.760

0 投票する

1 に答える

3775 参照

python - Django CMS「html5libという名前のモジュールはありません」

デフォルトおよび推奨モジュールをすべてインストールした基本的な Django CMS サイトを持っていますが、受信してエラーが発生しました...

更新しました

html5lib は経由でインストールされてeasy_install html5libおりimport html5lib、デフォルトの Python シェルでは問題なくインポートされます。

これは Python 2.6.6 を使用した Scientific Linux のクリーンインストールでセットアップされます。

Django 1.3.1 を使用しています。

私の INSTALLED_APPS は次のとおりです。

私の質問 (今のところ明らかでない場合 ;)) は、なぜ html5lib のインポートに問題があるのか、どうすれば修正できるのかということです。

更新 1

@ matt-williamson ありがとう、これが html5lib ファイル情報です

Django エラーを更新して、より多くのエラーページを提供しました。ご覧のとおり、Python パスには/usr/lib/python2.6/site-packages/html5lib-0.90-py2.6.eggが含まれており、それを見つけることができるはずです。

python django html5lib

2011-10-14T13:37:08.033

0 投票する

3 に答える

5505 参照

python - html5libを使用して、HTMLフラグメントをプレーンテキストに変換します

Pythonライブラリhtml5libを使用して次のようなものを変換する簡単な方法はありますか？

に

python html html5lib

2011-12-31T00:19:29.853

0 投票する

1 に答える

731 参照

python - このhtml5libスクリプトで何が起こっているのですか？

非常に単純なhtml5スクリプトを処理し、html5libを使用してレンダリングしようとしています

出力は次のようになります。

うん。途中で途切れます。ツリービルダーをlxmlからdomに変更しても何も起こりません。HTMLを微調整すると出力が変更されますが、それでもかなり破損しています。

python html5lib

2012-02-02T05:35:29.993

0 投票する

1 に答える

236 参照

python - html5libは

チュートリアルの最初のステップでは、html5libかなり混乱した動作が見られます。

ドキュメントによると：

これにより、カスタムの「シンプルツリー」形式でツリーが返されます。

ファイルとして、私は通常のhtmlドキュメントを持っています。しかし、私の場合、これは次のとおりです。

大丈夫ではないと思いますが、どうなるかわかりません。

編集

read開いたファイルでメソッドを呼び出すと、ファイルが文字列として返されます。

そして、の後doc = html5lib.parse(f)にf.read()、ファイルがすでに読み取られたファイルのように、空の文字列を返します。

python html5lib

2012-04-30T06:42:08.240

0 投票する

3 に答える

837 参照

python - html5lib. html、head、bodyタグを追加せずに有効なhtmlを取得するには?

html5libを使用してユーザーからのカスタム HTML を検証しています。問題は、html5lib がhtml、headおよびbodyタグを追加していることです。これは必要ありません。

これは検証済みで、サニタイズできますが、これらのタグを削除したり、ツリーに追加したりしないようにするにはどうすればよいですか? つまり、使用を除外replaceします。

python dom html-parsing html5lib

2012-04-30T12:37:36.827

0 投票する

2 に答える

2508 参照

python - Python BeautifulSoup エラー

私はこのスクリプトを持っています：

しかし、これにより次のエラーが発生します。

次に、このコードを試しました：

また

これにより、次のエラーが表示されます。

Linux Ubuntu 10.04、Python 2.6.5 を実行しています。BeautifulSoup のバージョンは '3.1.0.1' です。コードを修正するにはどうすればよいですか?

python web-crawler beautifulsoup lxml html5lib

2012-05-10T11:19:10.783

0 投票する

1 に答える

1427 参照

python - lxml treebuilder を使用した html5lib が名前空間を正しく解析しない

treebuilderをhtml5lib使用してHTML コンテンツを解析しようとしています。lxml注:requestsライブラリを使用してコンテンツを取得していますが、コンテンツは HTML5 です (XHTML で試してみました - 同じ結果)。

HTML ソースを単純に出力すると、問題ないように見えます。

戻り値

しかし、実際に html5lib で解析すると、奇妙なことが起こります。

戻り値

ことに注意してくださいxmlnsU0003Afoo。

また、辞書には名前空間html.nsmapは含まれず、.foohtml

何が起こっているのか、どうすればこれを修正できるのか、誰かが知っていますか?

後で編集：

これは予想される動作のようです：

使用されている XML API が要素と属性のローカル名に使用できる文字を制限している場合、ツールはすべての要素と属性のローカル名 [...] を、許可されていない文字を置き換えることによって、許可されている名前のセットにマップすることがあります。大文字の U と文字の Unicode コードの 6 桁ではサポートされていません [...] - HTML DOM を情報セットに強制する

python lxml html5lib

2012-09-03T20:41:43.427

0 投票する

1 に答える

264 参照

php - リンクの HTML ドキュメントを解析する必要があります。html5lib などのライブラリを使用しますか?

私は非常に初心者の Web ページビルダーで、現在、リンク先のページに応じてリンクの色を変更する必要がある Web サイトの作成に取り組んでいます。リンクは、特定のユーザー入力基準によってさまざまなクラス (例: 良い、悪い、中立) に分類されます。たとえば、ユーザーが興味を持っていると思われるコンテンツを含むリンクは、ユーザーが (おそらく) 見たくないものを青で表示します。通常のテキストなどに色付けされます。

コンテンツへのリンク (MySQL データベースに保存されている) の Web ページを解析し、ページ上のすべてのリンクの色を変更する方法が必要だと思います (したがって、HTML のリンククラスも変更できる必要があります)。適応したページをユーザーに出力する前。正規表現はこれらのリンクを見つけるのに適した方法ではないことを読みました-ライブラリを使用する必要がありますか?もしそうなら、html5libは私がやっていることに適していますか?

php html-parsing html5lib

2012-09-07T15:14:01.953

問題タブ [html5lib]

編集

Reference