問題タブ [html5lib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Xpathが一致しません
ページからいくつかの要素を取得しようとしています。残念ながら、リストは空になります。きれいに印刷されたツリーには、次の要素が含まれています。
ただし、同じツリーでこれを行うと、次のようになります。
空のリストが表示されます。ツリーはhtml5lib/lxmltreebuilderで作成されました。
python - html5libまたはbleachを使用してタグの内容を削除します
私は悪いHTMLを削除するために優れたブリーチライブラリを使用してきました。
Microsoft Wordから貼り付けられたHTMLドキュメントがたくさんあり、次のようなものが含まれています。
ブリーチを使用すると(style
タグは暗黙的に禁止されています)、次のようになります。
これは役に立ちません。ブリーチには次のオプションしかないようです。
- タグをエスケープします。
- タグを削除します(ただし、その内容は削除しません)。
3番目のオプションを探しています-タグとその内容を削除します。
ブリーチまたはhtml5libを使用してstyle
タグとその内容を完全に削除する方法はありますか?html5libのドキュメントは、それほど役に立ちません。
python - Django CMS「html5libという名前のモジュールはありません」
デフォルトおよび推奨モジュールをすべてインストールした基本的な Django CMS サイトを持っていますが、受信してエラーが発生しました...
更新しました
html5lib は経由でインストールされてeasy_install html5lib
おりimport html5lib
、デフォルトの Python シェルでは問題なくインポートされます。
これは Python 2.6.6 を使用した Scientific Linux のクリーン インストールでセットアップされます。
Django 1.3.1 を使用しています。
私の INSTALLED_APPS は次のとおりです。
私の質問 (今のところ明らかでない場合 ;)) は、なぜ html5lib のインポートに問題があるのか、どうすれば修正できるのかということです。
更新 1
@ matt-williamson ありがとう、これが html5lib ファイル情報です
Django エラーを更新して、より多くのエラー ページを提供しました。ご覧のとおり、Python パスには/usr/lib/python2.6/site-packages/html5lib-0.90-py2.6.eggが含まれており、それを見つけることができるはずです。
python - html5libを使用して、HTMLフラグメントをプレーンテキストに変換します
Pythonライブラリhtml5libを使用して次のようなものを変換する簡単な方法はありますか?
に
python - このhtml5libスクリプトで何が起こっているのですか?
非常に単純なhtml5スクリプトを処理し、html5libを使用してレンダリングしようとしています
出力は次のようになります。
うん。途中で途切れます。ツリービルダーをlxmlからdomに変更しても何も起こりません。HTMLを微調整すると出力が変更されますが、それでもかなり破損しています。
python - html5libは
チュートリアルの最初のステップでは、html5lib
かなり混乱した動作が見られます。
ドキュメントによると:
これにより、カスタムの「シンプルツリー」形式でツリーが返されます。
ファイルとして、私は通常のhtmlドキュメントを持っています。しかし、私の場合、これは次のとおりです。
大丈夫ではないと思いますが、どうなるかわかりません。
編集
read
開いたファイルでメソッドを呼び出すと、ファイルが文字列として返されます。
そして、の後doc = html5lib.parse(f)
にf.read()
、ファイルがすでに読み取られたファイルのように、空の文字列を返します。
python - html5lib. html、head、bodyタグを追加せずに有効なhtmlを取得するには?
html5libを使用してユーザーからのカスタム HTML を検証しています。問題は、html5lib がhtml
、head
およびbody
タグを追加していることです。これは必要ありません。
これは検証済みで、サニタイズできますが、これらのタグを削除したり、ツリーに追加したりしないようにするにはどうすればよいですか? つまり、使用を除外replace
します。
python - Python BeautifulSoup エラー
私はこのスクリプトを持っています:
しかし、これにより次のエラーが発生します。
次に、このコードを試しました:
また
これにより、次のエラーが表示されます。
Linux Ubuntu 10.04、Python 2.6.5 を実行しています。BeautifulSoup のバージョンは '3.1.0.1' です。コードを修正するにはどうすればよいですか?
python - lxml treebuilder を使用した html5lib が名前空間を正しく解析しない
treebuilderをhtml5lib
使用してHTML コンテンツを解析しようとしています。lxml
注:requests
ライブラリを使用してコンテンツを取得していますが、コンテンツは HTML5 です (XHTML で試してみました - 同じ結果)。
HTML ソースを単純に出力すると、問題ないように見えます。
戻り値
しかし、実際に html5lib で解析すると、奇妙なことが起こります。
戻り値
ことに注意してくださいxmlnsU0003Afoo
。
また、辞書には名前空間html.nsmap
は含まれず、.foo
html
何が起こっているのか、どうすればこれを修正できるのか、誰かが知っていますか?
後で編集:
これは予想される動作のようです:
使用されている XML API が要素と属性のローカル名に使用できる文字を制限している場合、ツールはすべての要素と属性のローカル名 [...] を、許可されていない文字を置き換えることによって、許可されている名前のセットにマップすることがあります。大文字の U と文字の Unicode コードの 6 桁ではサポートされていません [...] - HTML DOM を情報セットに強制する
php - リンクの HTML ドキュメントを解析する必要があります。html5lib などのライブラリを使用しますか?
私は非常に初心者の Web ページ ビルダーで、現在、リンク先のページに応じてリンクの色を変更する必要がある Web サイトの作成に取り組んでいます。リンクは、特定のユーザー入力基準によってさまざまなクラス (例: 良い、悪い、中立) に分類されます。たとえば、ユーザーが興味を持っていると思われるコンテンツを含むリンクは、ユーザーが (おそらく) 見たくないものを青で表示します。通常のテキストなどに色付けされます。
コンテンツへのリンク (MySQL データベースに保存されている) の Web ページを解析し、ページ上のすべてのリンクの色を変更する方法が必要だと思います (したがって、HTML のリンク クラスも変更できる必要があります)。適応したページをユーザーに出力する前。正規表現はこれらのリンクを見つけるのに適した方法ではないことを読みました-ライブラリを使用する必要がありますか?もしそうなら、html5libは私がやっていることに適していますか?